Aplicación Q-Learning en la generación de trayectorias en entornos 2D

Víctor Tomás Tomás Mariano; Jorge Hernández Camacho

doi:10.29057/esti.v11iEspecial.16161

Autores/as

Víctor Tomás Tomás Mariano Universidad Autónoma del Estado de Hidalgo https://orcid.org/0000-0001-6623-860X
Jorge Hernández Camacho Universidad Autónoma del Estado de Hidalgo

DOI:

https://doi.org/10.29057/esti.v11iEspecial.16161

Palabras clave:

Aprendizaje por refuerzo, Entorno, Q-Learning, Ruta

Resumen

Este trabajo presenta el desarrollo de una GUI para construir diferentes entornos de búsqueda (EdB) conforme a la configuración del usuario, el entorno es aleatorio en forma cuadricular con representación en filas – columnas. El número de celdas libres entre muros de un entorno afecta el tamaño del mismo lo que lo hace más complejo para buscar una posible solución. Se aplica el aprendizaje por reforzamiento específicamente el algoritmo Q-Learning en un EdB con múltiples pasillos libres (k>=3) en la se identifican celdas libres, celdas obstáculo, y una celda final. Se realiza una representación gráfica en 2D del EdB generado por Q-Learning en la que se puede elegir cualquier celda libre desde la cual navegar con solo realizar el movimiento o color indicado en la celda de la posición actual, esto permite a un agente o explorador alcanzar la celda final. La salida del algoritmo Q-Learning se almacena en un archivo de texto con etiquetas que representan los movimientos principales: arriba, abajo, derecha e izquierda, la representación gráfica 2D del EdB se guarda en formato de imagen bmp. En las pruebas realizadas se configuran diferentes EdB en la que se obtienen excelentes resultados con distintas rutas para navegar por el ambiente. Se generan datos tabulares que es el porcentaje de movimientos que contiene el EdB y el número total de celdas del ambiente. El algoritmo Q-Learning converge de manera adecuada en entornos ampliados en la que las dimensiones van desde cientos a miles de celdas.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Víctor Tomás Tomás Mariano, Universidad Autónoma del Estado de Hidalgo

Escuela Superior de Huejutla-UAEH

Citas

AlMahamid, F., & Grolinger, K. (2021, September). Reinforcement learning algorithms: An overview and classification. In 2021 IEEE Canadian Conference on Electrical and Computer Engineering (CCECE) (pp. 1-7). IEEE. https://doi.org/10.48550/arXiv.2209.14940

Caponera R. R. (2021). Comparación de algoritmos de aprendizaje por refuerzo basados en Q-Learning., https://hdl.handle.net/10630/23354

Delmás, E. L. (2025). Seguimiento de líneas con técnicas de aprendizaje por refuerzo en robótica móvil, [Trabajo fin de grado en Ingeniería en informática, Universidad Politécnica de Madrid], https://oa.upm.es/90129/1/TFG_EDUARDO_LOPEZ_DELMAS.pdf

Jang B., Kim M., Harerimana G. and Kim J. W., "Q-Learning Algorithms: A Comprehensive Classification and Applications," in IEEE Access, vol. 7, pp. 133653-133667, 2019, doi: 10.1109/ACCESS.2019.2941229.

Moya Quinatoa, K. A. (2024). Aplicación del algoritmo de aprendizaje por refuerzo Q-Learning para la generación de trayectorias óptimas en plataformas robóticas, [Trabajo de titulación previo al título en Ingeniero en Tecnologías de la Información, Universidad Técnica de Ambato], https://repositorio.uta.edu.ec/handle/123456789/42440

Montenegro Meza, M. A., Menchaca Méndez, R., & Menchaca Méndez, R. (2023). Una Introducción amable pero riguroza al aprendizaje por refuerzo. ReCIBE. Revista electrónica de Computación, Informática, Biomédica y Electrónica, 12(1), 1-15. https://doi.org/10.32870/recibe.v12i1.268

Nguyen, T. T., Nahavandi, S., Razzak, I., Nguyen, D., Pham, N. T., & Nguyen, Q. V. H. (2025). The Emergence of Deep Reinforcement Learning for Path Planning. https://doi.org/10.48550/arXiv.2507.15469

Olivas, E. S., Isla, M. A. S. M., Cruz, R. G., & Caballer, B. C. (2023). Sistemas de aprendizaje automático. Editorial: RA-MA, ISBN: 9788419444981,

Pina Navarro, M. (2022). Aplicación de técnicas de aprendizaje por refuerzo a navegación visual, [Trabajo fin de Máster, Universidad de Alicante], http://hdl.handle.net/10045/124262

Popović, M., Ott, J., Rückin, J., & Kochenderfer, M. J. (2024). Learning-based methods for adaptive informative path planning. Robotics and Autonomous Systems, 179, 104727. https://doi.org/10.48550/arXiv.2404.06940

Quinones-Ramirez, M., Rios-Martinez, J., & Uc-Cetina, V. (2023). Robot path planning using deep reinforcement learning. https://doi.org/10.48550/arXiv.2302.09120

Ramírez, C., & Ramírez, W. (2023). Programación de inteligencia artificial: Curso práctico. Editorial: RA-MA. ISBN: 9788419857019, https://uaeh.bibliotecasdigitales.com/read/9788419857019/index

Rudkowskyj H. S. (2019). Aprendizaje por refuerzo en sistemas robóticos. [Trabajo Fin de Grado en ingeniería en Tecnologías Industriales, Universidad Politécnica de Madrid] , https://oa.upm.es/56678/

Vallejo Del Moral, M. (2021). Algoritmo Deep Q-Learning para el aprendizaje por refuerzo de una estrategia de conducción en 2D. https://academica-e.unavarra.es/handle/2454/40521

Wong, C. (2020). Adaptive task planning and motion planning for robots in dynamic environments. doi: 10.48730/1r89-y325

Yang K. and Liu L., (2024), "An Improved Deep Reinforcement Learning Algorithm for Path Planning in Unmanned Driving," in IEEE Access, vol. 12, pp. 67935-67944, doi: 10.1109/ACCESS.2024.3400159.

Yao Q. et al., (2000), "Path Planning Method With Improved Artificial Potential Field—A Reinforcement Learning Perspective," in IEEE Access, vol. 8, pp. 135513-135523, doi: 10.1109/ACCESS.2020.3011211.