Aplicación Q-Learning en la generación de trayectorias en entornos 2D
DOI:
https://doi.org/10.29057/esti.v11iEspecial.16161Palabras clave:
Aprendizaje por refuerzo, Entorno, Q-Learning, RutaResumen
Este trabajo presenta el desarrollo de una GUI para construir diferentes entornos de búsqueda (EdB) conforme a la configuración del usuario, el entorno es aleatorio en forma cuadricular con representación en filas – columnas. El número de celdas libres entre muros de un entorno afecta el tamaño del mismo lo que lo hace más complejo para buscar una posible solución. Se aplica el aprendizaje por reforzamiento específicamente el algoritmo Q-Learning en un EdB con múltiples pasillos libres (k>=3) en la se identifican celdas libres, celdas obstáculo, y una celda final. Se realiza una representación gráfica en 2D del EdB generado por Q-Learning en la que se puede elegir cualquier celda libre desde la cual navegar con solo realizar el movimiento o color indicado en la celda de la posición actual, esto permite a un agente o explorador alcanzar la celda final. La salida del algoritmo Q-Learning se almacena en un archivo de texto con etiquetas que representan los movimientos principales: arriba, abajo, derecha e izquierda, la representación gráfica 2D del EdB se guarda en formato de imagen bmp. En las pruebas realizadas se configuran diferentes EdB en la que se obtienen excelentes resultados con distintas rutas para navegar por el ambiente. Se generan datos tabulares que es el porcentaje de movimientos que contiene el EdB y el número total de celdas del ambiente. El algoritmo Q-Learning converge de manera adecuada en entornos ampliados en la que las dimensiones van desde cientos a miles de celdas.
Descargas
Citas
AlMahamid, F., & Grolinger, K. (2021, September). Reinforcement learning algorithms: An overview and classification. In 2021 IEEE Canadian Conference on Electrical and Computer Engineering (CCECE) (pp. 1-7). IEEE. https://doi.org/10.48550/arXiv.2209.14940
Caponera R. R. (2021). Comparación de algoritmos de aprendizaje por refuerzo basados en Q-Learning., https://hdl.handle.net/10630/23354
Delmás, E. L. (2025). Seguimiento de líneas con técnicas de aprendizaje por refuerzo en robótica móvil, [Trabajo fin de grado en Ingeniería en informática, Universidad Politécnica de Madrid], https://oa.upm.es/90129/1/TFG_EDUARDO_LOPEZ_DELMAS.pdf
Jang B., Kim M., Harerimana G. and Kim J. W., "Q-Learning Algorithms: A Comprehensive Classification and Applications," in IEEE Access, vol. 7, pp. 133653-133667, 2019, doi: 10.1109/ACCESS.2019.2941229.
Moya Quinatoa, K. A. (2024). Aplicación del algoritmo de aprendizaje por refuerzo Q-Learning para la generación de trayectorias óptimas en plataformas robóticas, [Trabajo de titulación previo al título en Ingeniero en Tecnologías de la Información, Universidad Técnica de Ambato], https://repositorio.uta.edu.ec/handle/123456789/42440
Montenegro Meza, M. A., Menchaca Méndez, R., & Menchaca Méndez, R. (2023). Una Introducción amable pero riguroza al aprendizaje por refuerzo. ReCIBE. Revista electrónica de Computación, Informática, Biomédica y Electrónica, 12(1), 1-15. https://doi.org/10.32870/recibe.v12i1.268
Nguyen, T. T., Nahavandi, S., Razzak, I., Nguyen, D., Pham, N. T., & Nguyen, Q. V. H. (2025). The Emergence of Deep Reinforcement Learning for Path Planning. https://doi.org/10.48550/arXiv.2507.15469
Olivas, E. S., Isla, M. A. S. M., Cruz, R. G., & Caballer, B. C. (2023). Sistemas de aprendizaje automático. Editorial: RA-MA, ISBN: 9788419444981,
Pina Navarro, M. (2022). Aplicación de técnicas de aprendizaje por refuerzo a navegación visual, [Trabajo fin de Máster, Universidad de Alicante], http://hdl.handle.net/10045/124262
Popović, M., Ott, J., Rückin, J., & Kochenderfer, M. J. (2024). Learning-based methods for adaptive informative path planning. Robotics and Autonomous Systems, 179, 104727. https://doi.org/10.48550/arXiv.2404.06940
Quinones-Ramirez, M., Rios-Martinez, J., & Uc-Cetina, V. (2023). Robot path planning using deep reinforcement learning. https://doi.org/10.48550/arXiv.2302.09120
Ramírez, C., & Ramírez, W. (2023). Programación de inteligencia artificial: Curso práctico. Editorial: RA-MA. ISBN: 9788419857019, https://uaeh.bibliotecasdigitales.com/read/9788419857019/index
Rudkowskyj H. S. (2019). Aprendizaje por refuerzo en sistemas robóticos. [Trabajo Fin de Grado en ingeniería en Tecnologías Industriales, Universidad Politécnica de Madrid] , https://oa.upm.es/56678/
Vallejo Del Moral, M. (2021). Algoritmo Deep Q-Learning para el aprendizaje por refuerzo de una estrategia de conducción en 2D. https://academica-e.unavarra.es/handle/2454/40521
Wong, C. (2020). Adaptive task planning and motion planning for robots in dynamic environments. doi: 10.48730/1r89-y325
Yang K. and Liu L., (2024), "An Improved Deep Reinforcement Learning Algorithm for Path Planning in Unmanned Driving," in IEEE Access, vol. 12, pp. 67935-67944, doi: 10.1109/ACCESS.2024.3400159.
Yao Q. et al., (2000), "Path Planning Method With Improved Artificial Potential Field—A Reinforcement Learning Perspective," in IEEE Access, vol. 8, pp. 135513-135523, doi: 10.1109/ACCESS.2020.3011211.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2025 Víctor Tomás Tomás Mariano, Jorge Hernández Camacho

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.









