Percepción multimodal para navegación terrestre mediante reconocimiento de sonidos y objetos
Palabras clave:
Percepción multimodal, Redes neuronales, Integración sensorial, Vehículos autónomosResumen
Este proyecto presenta el desarrollo de un vehículo terrestre autónomo con capacidades de percepción multimodal, cuyo principal objetivo es la localización e identificación de fuentes sonoras y objetos visuales. Para ello, el sistema integra un arreglo de micrófonos que ayudan a estimar la dirección de llegada del sonido, así como una cámara OAK-D Lite con capacidad de percepción de profundidad para la detección de objetos usando redes neuronales. A través de la fusión de información auditiva y visual, el vehículo puede desplazarse hacia la fuente de un sonido detectado o hacia un objeto identificado en su entorno. La plataforma utiliza ruedas omnidireccionales que permiten maniobras ágiles en cualquier dirección, y una Raspberry Pi encargada del procesamiento de señales, ejecución de inferencias y control del movimiento. Este proyecto sienta las bases para sistemas robóticos inteligentes capaces de responder a estímulos complejos del entorno mediante integración audiovisual.
Descargas
Citas
Benesty, J., Chen, J., & Huang, Y. (2008). Microphone array signal processing. Springer.
Brandstein, M., & Ward, D. (2001). Microphone arrays: Signal processing techniques and applications. Springer Science & Business Media.
Campos Siurana, A. (2018). Diseño e implementación de un vehículo de cuatro ruedas omnidireccionales (Tesis doctoral). Universitat Politècnica de València.
Duncan, J. A., Alambeigi, F., & Pryor, M. W. (2024). A survey of multimodal perception methods for human–robot interaction in social environments. ACM Transactions on Human-Robot Interaction, 13(4), 1–50.
Espressif Systems. (2023). ESP32 technical reference manual. https://www.espressif.com/sites/default/files/documentation/esp32_technical_reference_manual_en.pdf
Galarza Sánchez, F. J. (2019). Sistema de detección de peatones para vehículos autónomos.
González Sierra, R. S., & Mafla Meneses, J. M. (2018). Sistema de visión artificial de apoyo para el comando de vehículos no tripulados.
Jocher, G., Stokast, A., Abhishek, B. J., Mishra, N., Ojha, U., Wang, Z., Sandler, M., & Howard, A. (2023). YOLOv8: State-of-the-art object detection. Ultralytics Documentation.
Khaleghi, B., Khamis, A., Karray, F. O., & Razavi, S. N. (2013). Multisensor data fusion: A review of the state-of-the-art. Information Fusion, 14(1), 28–44.
Luxonis. (2023). OAK-D S2 documentation. Documentación oficial de Luxonis.
Pekar, J. (2023). Sound source localization from a microphone array.
Siegwart, R., Nourbakhsh, I. R., & Scaramuzza, D. (2011). Introduction to autonomous mobile robots. MIT Press.
Van den Broeck, B., Bertrand, A., Karsmakers, P., Vanrumste, B., Van Hamme, H., & Moonen, M. (2012). Time-domain GCC-PHAT sound source localization for small microphone arrays. En Proceedings of the 5th European DSP Education and Research Conference (EDERC) (pp. 13–14). European DSP Education and Research Conference.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2026 Lucy Carmona Vieyra, Gerardo Jair Aguilar Belmonte, Goretti Ramírez Villa, Moisés Torres Rivera

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.










