Detección en tiempo real de las dimensiones de objetos usando cámaras RGB-D para navegación móvil

Griselda Quiroz-Compeán; Juan Carlos Sernaque Julca

doi:10.29057/icbi.v14iEspecial.15512

Autores/as

Griselda Quiroz-Compeán Universidad Autónoma de Nuevo León https://orcid.org/0000-0002-4910-2521
Juan Carlos Sernaque Julca Universidad Autónoma de Nuevo León https://orcid.org/0000-0002-3507-9340

DOI:

https://doi.org/10.29057/icbi.v14iEspecial.15512

Palabras clave:

Detección de objetos 3D, Procesamiento de nubes de puntos, Navegación autónoma

Resumen

Este estudio compara dos métodos para estimar dimensiones (ancho, alto) y distancia de objetos 3D usando una cámara RGB-D. El primer método utiliza solo datos de profundidad, mientras que el segundo combina datos de color y profundidad. Ambos procesan nubes de puntos mediante la librería Point Cloud Library, aplicando filtrado y segmentación (diezmado, Voxel, Random Sample Consensus y clustering euclidiano). En las pruebas experimentales se evaluaron cilindros (5-10 cm) y cajas (23x25x7 cm) distribuidos a menos de 1.25 m desde la cámara y en condiciones controladas para evaluar cómo afectan los parámetros (resolución, diezmado y voxels) al rendimiento del sistema. Luego, con cámara en movimiento (0.15 m/s), se determinó que el segundo método es más preciso que el primero (Error promedio: alto 0.0696 m vs 0.006 m; ancho 0.0117 m vs 0.004 m) ejecutándose, ambos, 22 fotogramas por segundo, demostrando la utilidad de los métodos para percepción 3D en tiempo real usando una Raspberry Pi 4B+ y programación en C/C++.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Bochinski, E., Eiselein, V., y Sikora, T. (2017). High-speed tracking-by-detection without using image information. En 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), pp. 1–6.

Fischler, M. A. y Bolles, R. C. (1981). Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography. Communications of the ACM, 24(6):381–395.

IntelCorporation (2023a). Depth camera calibration tools. Accessed: 23-06-2025.

IntelCorporation (2023b). Intel RealSense D400 series datasheet. Accessed: 23-06-2025.

IntelCorporation (2024). Post-processing filters. Accessed: 23-06-2025.

Lang, A. H., Vora, S., Caesar, H., Zhou, L., Yang, J., y Beijbom, O. (2019). PointPillars: Fast encoders for object detection from point clouds.

Lin, Y., Zhang, Z., Tang, H., Wang, H., y Han, S. (2021). PointAcc: Efficient point cloud accelerator. En MICRO-54 54th Annual IEEE/ACM International Symposium on Microarchitecture, pp. 449–461. ACM.

Mao, J., Shi, S., y et al., X. W. (2023). 3D object detection for autonomous driving: A comprehensive survey. International Journal of Computer Vision, 131:1909–1963.

Park, J., Xu, C., Yang, S., Keutzer, K., Kitani, K., Tomizuka, M., y Zhan, W. (2022). Time will tell: New outlooks and a baseline for temporal multi-view 3D object detection.

PCL (2023). Point Cloud Library (PCL): SACSegmentation class. Accessed: 23-06-2025.

RealSense™, I. (2025a). Depth image compression by colorization for Intel® RealSense™ depth cameras.

RealSense™, I. (2025b). PCL (Point Cloud Library).

Rusu, R. B. y Cousins, S. (2011). 3D is here: Point Cloud Library (PCL). En IEEE International Conference on Robotics and Automation (ICRA), Shanghai, China.

Wang, C., Wang, C., Li, W., y Wang, H. (2021). A brief survey on RGB-D semantic segmentation using deep learning. Displays, 70:102080.

Zhang, Z. (2000). A flexible new technique for camera calibration. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 22(11).

Zhou, J. (2022). A review of LiDAR sensor technologies for perception in automated driving. Academic Journal of Science and Technology, 3:255–261.

Zhou, L., Wu, G., Zuo, Y., Chen, X., y Hu, H. (2024). A comprehensive review of vision-based 3D reconstruction methods. Sensors, 24(7).