Para poder navegar de manera segura en un entorno desconocido, un robot autónomo móvil debe poder construir una representación del ambiente en el cual se encuentra (mapeo), al mismo tiempo que estima su posición (localización). Este problema es conocido en la robótica móvil como SLAM (Simultaneous Localization and Mapping). Asimismo, robots que pretenden interactuar con su entorno de manera "inteligente" además de navegarlo, necesitan información semántica de su ambiente que complemente la información geométrica típica de sistemas SLAM.
En este trabajo se propone un sistema de SLAM basado en visión estéreo que realiza una reconstrucción de objetos de su entorno (mapa). El sistema resulta de la inclusión de un módulo de detección de objetos basado en Deep Learning con imágenes, al sistema de SLAM S-PTAM ( Stereo Parallel Tracking and Mapping ) del estado del arte. El módulo de detección de objetos se encarga de detectar y estimar la pose de los objetos en el espacio de manera online, mientras que S-PTAM se encarga de estimar de manera precisa la pose de la cámara en tiempo real. El sistema se evaluó en un entorno real, logrando buenos resultados de localización de objetos.
Palabras claves: Visual SLAM, Semantic SLAM, Deep Learning, Object Detection, Object Localisation, Synthetic Data.