Percepción multimodal para navegación terrestre mediante reconocimiento de sonidos y objetos

Lucy Carmona Vieyra; Gerardo Jair Aguilar Belmonte; Goretti Ramírez Villa; Moisés Torres Rivera

doi:10.29057/icbi.v14iEspecial.15536

Autores/as

Lucy Carmona Vieyra Universidad Aeronáutica en Querétaro https://orcid.org/0009-0001-3070-8531
Gerardo Jair Aguilar Belmonte Universidad Aeronáutica en Querétaro https://orcid.org/0009-0006-1801-2802
Goretti Ramírez Villa Universidad Aeronáutica en Querétaro https://orcid.org/0000-0003-3442-8294
Moisés Torres Rivera Universidad Aeronáutica en Querétaro https://orcid.org/0000-0001-6668-2903

DOI:

https://doi.org/10.29057/icbi.v14iEspecial.15536

Palabras clave:

Percepción multimodal, Redes neuronales, Integración sensorial, Vehículos autónomos

Resumen

Este proyecto presenta el desarrollo de un vehículo terrestre autónomo con capacidades de percepción multimodal, cuyo principal objetivo es la localización e identificación de fuentes sonoras y objetos visuales. Para ello, el sistema integra un arreglo de micrófonos que ayudan a estimar la dirección de llegada del sonido, así como una cámara OAK-D Lite con capacidad de percepción de profundidad para la detección de objetos usando redes neuronales. A través de la fusión de información auditiva y visual, el vehículo puede desplazarse hacia la fuente de un sonido detectado o hacia un objeto identificado en su entorno. La plataforma utiliza ruedas omnidireccionales que permiten maniobras ágiles en cualquier dirección, y una Raspberry Pi encargada del procesamiento de señales, ejecución de inferencias y control del movimiento. Este proyecto sienta las bases para sistemas robóticos inteligentes capaces de responder a estímulos complejos del entorno mediante integración audiovisual.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Benesty, J., Chen, J., & Huang, Y. (2008). Microphone array signal processing. Springer.

Brandstein, M., & Ward, D. (2001). Microphone arrays: Signal processing techniques and applications. Springer Science & Business Media.

Campos Siurana, A. (2018). Diseño e implementación de un vehículo de cuatro ruedas omnidireccionales (Tesis doctoral). Universitat Politècnica de València.

Duncan, J. A., Alambeigi, F., & Pryor, M. W. (2024). A survey of multimodal perception methods for human–robot interaction in social environments. ACM Transactions on Human-Robot Interaction, 13(4), 1–50.

Espressif Systems. (2023). ESP32 technical reference manual. https://www.espressif.com/sites/default/files/documentation/esp32_technical_reference_manual_en.pdf

Galarza Sánchez, F. J. (2019). Sistema de detección de peatones para vehículos autónomos.

González Sierra, R. S., & Mafla Meneses, J. M. (2018). Sistema de visión artificial de apoyo para el comando de vehículos no tripulados.

Jocher, G., Stokast, A., Abhishek, B. J., Mishra, N., Ojha, U., Wang, Z., Sandler, M., & Howard, A. (2023). YOLOv8: State-of-the-art object detection. Ultralytics Documentation.

Khaleghi, B., Khamis, A., Karray, F. O., & Razavi, S. N. (2013). Multisensor data fusion: A review of the state-of-the-art. Information Fusion, 14(1), 28–44.

Luxonis. (2023). OAK-D S2 documentation. Documentación oficial de Luxonis.

Pekar, J. (2023). Sound source localization from a microphone array.

Siegwart, R., Nourbakhsh, I. R., & Scaramuzza, D. (2011). Introduction to autonomous mobile robots. MIT Press.

Van den Broeck, B., Bertrand, A., Karsmakers, P., Vanrumste, B., Van Hamme, H., & Moonen, M. (2012). Time-domain GCC-PHAT sound source localization for small microphone arrays. En Proceedings of the 5th European DSP Education and Research Conference (EDERC) (pp. 13–14). European DSP Education and Research Conference.