Mejora en la clasificación de datos con desbalance de clases mediante una redistribución de clases por k-means

Antonio Alarcón Paredes; Roberto Jhoshua Alegre Ventura; Gustavo Adolfo Alonso Silverio

doi:10.29057/xikua.v12iEspecial.12768

Autores/as

Antonio Alarcón Paredes Centro de Investigación en Computación, Instituto Politécnico Nacional http://orcid.org/0000-0002-9785-1252
Roberto Jhoshua Alegre Ventura Universidad Nacional Autónoma de México https://orcid.org/0009-0004-3038-8402
Gustavo Adolfo Alonso Silverio Universidad Autónoma de Guerrero http://orcid.org/0000-0002-2699-140X

DOI:

https://doi.org/10.29057/xikua.v12iEspecial.12768

Palabras clave:

Desbalance de clases, Significancia estadística, Aprendizaje automático

Resumen

En el campo del aprendizaje automático, existen varios desafíos que afectan el desempeño de los algoritmos de clasificación. Algunos de estos incluyen la maldición de la dimensionalidad o el desbalanceo de clases. La maldición de la dimensionalidad es un fenómeno que ocurre cuando el número de características (p) de un conjunto de datos aumenta significativamente en comparación con el número de instancias (n) disponibles. Por otro lado, el desbalanceo de clases ocurre cuando una o varias clases en un conjunto de datos tienen una representación significativamente menor que otras clases. Esto disminuye el rendimiento del clasificador, ya que genera sesgos de clasificación hacia la clase mayoritaria. Los datos de microarreglos son ampliamente utilizados para analizar y comprender la expresión genética en un nivel global. Estos proporcionan información sobre la expresión de miles de genes simultáneamente y pueden utilizarse para clasificar diferentes condiciones o enfermedades. Ese tipo de datos presentan tanto maldición de la dimensionalidad como desbalanceo de clases, por lo que su clasificación es compleja.

En este trabajo se presenta un método para dividir la clase mayoritaria dos o más clases por medio del algoritmo de agrupamiento k-means en conjuntos de datos de microarreglos. Se lleva a cabo la clasificación usando una variedad de algoritmos de clasificación en el estado del arte. Se reporta que el método propuesto supera el desempeño de clasificación de los métodos clásicos, tomando en consideración el balanced accuracy y un 5-fold cross-validation. Tras realizar la prueba estadística de Mann-Whitney se determinó que la propuesta obtiene resultados significativamente mejores que cuando se usan los algoritmos clásicos.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Narendra, P.M.; Fukunaga, K. A Branch and Bound Algorithm for Feature Subset Selection. IEEE Trans. Comput. 1977, 26, 917–922, doi:10.1109/tc.1977.1674939.

Fernández, A.; García, S.; Galar, M.; Prati, R.C.; Krawczyk, B.; Herrera, F. Learning from imbalanced data sets; Springer, 2018; Vol. 10;.

Chawla, N. V; Bowyer, K.W.; Hall, L.O.; Kegelmeyer, W.P. SMOTE: synthetic minority over-sampling technique. J. Artif. Intell. Res. 2002, 16, 321–357.

Golub, T.R. Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring. Science (80-. ). 1999, 286, 531–537, doi:10.1126/science.286.5439.531.

Guyon, I.; Weston, J.; Barnhill, S.; Vapnik, V. Gene selection for cancer classification using support vector machines. Mach. Learn. 2002, 46, 389–422.

Chan, W.H.; Mohamad, M.S.; Deris, S.; Zaki, N.; Kasim, S.; Omatu, S.; Corchado, J.M.; Al Ashwal, H. Identification of informative genes and pathways using an improved penalized support vector machine with a weighting scheme. Comput. Biol. Med. 2016, 77, 102–115, doi:10.1016/j.compbiomed.2016.08.004.

Wang, L.; Han, M.; Li, X.; Zhang, N.; Cheng, H. Review of classification methods on unbalanced data sets. IEEE Access 2021, 9, 64606–64628.

Thabtah, F.; Hammoud, S.; Kamalov, F.; Gonsalves, A. Data imbalance in classification: Experimental evaluation. Inf. Sci. (Ny). 2020, 513, 429–441.

Jain, A.K. Data clustering: 50 years beyond K-means. Pattern Recognit. Lett. 2010, 31, 651–666.

Pfitzner, D.; Leibbrandt, R.; Powers, D. Characterization and evaluation of similarity measures for pairs of clusterings. Knowl. Inf. Syst. 2009, 19, 361–394.