Reducción de cálculos de distancia en K-means mediante inicialización optimizada de centroides en una estructura jerárquica tipo árbol

Autores/as

DOI:

https://doi.org/10.29057/esti.v11i22.15448

Palabras clave:

Algoritmo K-means, Big Data, Estructura Kd-tree, Agrupamiento eficiente, Computational optimization

Resumen

El problema de agrupamiento es clave en áreas como minería de datos, aprendizaje automático, descubrimiento de conocimiento y reconocimiento de patrones. K-means es uno de los algoritmos más utilizados debido a su simplicidad y fácil implementación. No obstante, presenta un alto costo computacional, especialmente en entornos con grandes volúmenes de datos, como los planteados por el paradigma Big Data. Esta investigación propone una mejora en la fase de inicialización de K-means mediante el uso de una estructura jerárquica tipo árbol, la cual permite seleccionar centroides con características de representatividad óptima. Con ello, se busca reducir tanto los cálculos de distancia como las actualizaciones de centroides, logrando una mayor eficiencia en la ejecución del algoritmo. La propuesta fue evaluada con instancias reales reconocidas en la literatura y conjuntos sintéticos de gran tamaño. Los resultados muestran que la mejora mantiene o incrementa la calidad del agrupamiento, al tiempo que reduce significativamente los costos computacionales. Destacan: en la instancia sintética IS5 (no uniforme), una mejora del 4.53% en calidad, 98.81% menos tiempo y 33.33% menos iteraciones; en IS2 (uniforme), una mejora del 0.0059% en calidad, 99.99% menos tiempo y 94.44% menos iteraciones; y en la instancia real Skin, una mejora del 5.40% en calidad, 99.97% menos tiempo y 38.46% menos iteraciones.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Alicia Martínez-Rebollar, TECNM/CENIDET

Alicia Martínez Rebollar tiene un doctorado en Informática por la Universidad Politécnica de Valencia, España y un doctorado en Informática y Telecomunicaciones por la Universidad de Trento, Italia. Actualmente desempeña el puesto de Coordinadora de la maestría y doctorado en Ciencias de la Ingeniería del Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET). Sus áreas de investigación incluyen el uso de técnicas de aprendizaje automático y cómputo evolutivo para dominios de agricultura de precisión, salud mental y análisis de comportamiento humano. https://orcid.org/0000-0002-1071-8599

Luis Neri-Martínez, TECNM/CENIDET

Luis Cutberto Neri Martinez realizó sus estudios de Licenciatura en el Instituto Tecnológico de Zacatepec, donde obtuvo el grado de Ingeniera en Sistemas Computacionales. Actualmente se encuentra cursando la Maestría en el TECNM/CENIDET con una especialización en la línea de Investigación de Cómputo Inteligente y Ciencia de Datos. Su principal enfoque de investigación se centra en Ciencia de Datos.https://orcid.org/0009-0000-1468-5758

Dulce Estrada-Bahena, TECNM/CENIDET

Dulce Liliana Estrada Bahena cursó la licenciatura en el Instituto Tecnológico de Iguala, donde obtuvo el título de Ingeniera en Sistemas Computacionales. Posteriormente, realizó estudios de maestría en la Universidad Autónoma de Guerrero, en la Unidad Académica de Ingeniería con sede en Chilpancingo, obteniendo el grado de Maestra en Computación.Actualmente, se encuentra realizando estudios de doctorado en el TECNM/CENIDET, con especialización en la línea de investigación de Cómputo Inteligente y Ciencia de Datos. Su enfoque principal de investigación se centra en la detección de polaridad y la clasificación temática de textos. https://orcid.org/0009-0000-0753-146X 

Hugo Estrada-Esquivel, TECNM/CENIDET

Hugo Estrada Esquivel tiene un doctorado en Informática por la Universidad Politécnica de Valencia, España y un doctorado en Informática y Telecomunicaciones por la Universidad de Trento, Italia. Ha sido investigador en el centro de investigación INFOTEC, en CONACYT y actualmente en el Departamento de Ciencias Computacionales del CENIDET. Sus líneas de investigación son Internet de las Cosas, minería de datos, cómputo en la nube y ciudades inteligentes, específicamente en el análisis de la movilidad vehicular en ciudades de México. https://orcid.org/0000-0002-1466-7581

Citas

MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. In L. M. Le Cam & J. Neyman (Eds.), Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability (Vol. 1, pp. 281–297). University of California Press.

Bezdek, J. C. (1981). Pattern recognition with fuzzy objective function algorithms. Springer Science & Business Media.

Ren, T., Wang, H., Feng, H., Xu, C., Liu, G., & Ding, P. (2019). Study on the improved fuzzy clustering algorithm and its application in brain image segmentation. Applied Soft Computing, 81, 105503. https://doi.org/10.1016/j.asoc.2019.105503

Lloyd, S. P. (1982). Least squares quantization in PCM. IEEE Transactions on Information Theory, 28(2), 129–137.

Arthur, D., & Vassilvitskii, S. (2007). k-means++: The advantages of careful seeding. In Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms (pp. 1027–1035).

Kanungo, T., Mount, D. M., Netanyahu, N. S., Piatko, C. D., Silverman, R., & Wu, A. Y. (2002). An efficient K-means clustering algorithm: Analysis and implementation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(7), 881–892.

Pérez-Ortega, J., Moreno-Calderón, C. F., Roblero-Aguilar, S. S., Almanza-Ortega, N. N., Frausto-Solís, J., & Pazos-Rangel, R. (2024). A new criterion for improving convergence of fuzzy C-means clustering. Axioms, 13(1), 35. https://doi.org/10.3390/axioms13010035

Wu, X., Kumar, V., Quinlan, J. R., Ghosh, J., Yang, Q., Motoda, H., ... & Steinberg, D. (2007). Top 10 algorithms in data mining. Knowledge and Information Systems, 14(1), 1–37. https://doi.org/10.1007/s10115-007-0114-2

Vrahatis, M. N., Boutsinas, B., Alevizos, P., & Pavlides, G. (2002). The new k-Windows algorithm for improving the k-Means clustering algorithm. Pattern Recognition Letters, 23(3–4), 375–391.

Zou, K., Wang, Z., & Hu, M. (2008). A new initialization method for fuzzy c-means algorithm. Fuzzy Optimization and Decision Making, 7(4), 409–416.

Stetco, A., Zeng, X. J., & Keane, J. (2015). Fuzzy C-means++: Fuzzy C-means with effective seeding initialization. Expert Systems with Applications, 42(21), 7541–7548..

Pérez, J., Pazos, R., Cruz, L., Reyes, G., Besave, R., & Fraire, H. (2007). Improving the efficiency and efficacy of the K-means clustering algorithm through a new convergence condition. In Computational Science and Its Applications – ICCSA 2007 (pp. 674–682).

Pérez, J., Mexicano, A., Santaolaya, R., Hidalgo, M., Moreno, A., & Pazos, R. (2012). Improvement to the K-means algorithm through a heuristics based on a bee honeycomb structure. Proceedings of the 2012 4th World Congress on Nature and Biologically Inspired Computing (NaBIC), 175–180.

Pérez, J., Mexicano, A., Santaolaya, R., Hidalgo, M., Moreno, A., & Pazos, R. (2014). Mejora del algoritmo K-means mediante una metaheurística orientada a la reducción de su complejidad computacional. Encuentro Nacional de Computación – ENC, Taller de Aspectos Algorítmicos de Sistemas de Cómputo.

Bentley, J. L. (1975). Multidimensional binary search trees used for associative searching. Communications of the ACM, 18(9), 509–517.

Friedman, J. H., Baskett, F., & Shustek, L. J. (1975). An algorithm for finding nearest neighbors. IEEE Transactions on Computers, C-24(10), 1000–1006.

Bhimavarapu, U., Chintalapudi, N., & Battineni, G. (2024). Brain tumor detection and categorization with segmentation of improved unsupervised clustering approach and machine learning classifier. Bioengineering, 11(3), 266.

https://doi.org/10.3390/bioengineering11030266

Yosph, F., Malim, N. H. A. H., Heikkilä, M., Brezulianu, A., Geman, O., & Rostam, N. A. P. (2020). The impact of big data market segmentaton using data mining and clustering techniques. Journal of Intelligent & Fuzzy Systems, 38(5), 6159–6173. https://doi.org/10.3233/JIFS-179337

Nazari, M., Hussain, A., & Musilek, P. (2023). Applications of clustering methods for different aspects of electric vehicles. Electronics, 12(4), 790. https://doi.org/10.3390/electronics12040790

Arya, S., Mount, D. M., Netanyahu, N. S., Silverman, R., & Wu, A. Y. (1998). An optimal algorithm for approximate nearest neighbor searching in fixed dimensions. Journal of the ACM (JACM), 45(6), 891–923.

Descargas

Publicado

2026-01-05

Cómo citar

Martínez-Rebollar, A., Neri-Martínez, L., Estrada-Bahena, D., & Estrada-Esquivel, H. (2026). Reducción de cálculos de distancia en K-means mediante inicialización optimizada de centroides en una estructura jerárquica tipo árbol. Boletín Científico INVESTIGIUM De La Escuela Superior De Tizayuca, 11(22), 25–32. https://doi.org/10.29057/esti.v11i22.15448