Pasar al contenido principal

Percepción y sensado multimodal para vehículos autónomos

El objetivo del proyecto es ampliar los límites en el campo del entrenamiento de DNN para la percepción a partir de sensores de imagen multimodales, basados en conjuntos de datos capturados en condiciones ambientales desafiantes (mal tiempo, noche) y aplicados a la detección de usuarios vulnerables de las carreteras (VRU), incluidos peatones, ciclistas y (por primera vez) usuarios de micromovilidad. Con este propósito, integraremos y calibraremos los sensores en un vehículo para la adquisición de datos, desarrollando una interfaz ad-hoc para la visualización, el flujo y el almacenamiento de datos. El vehículo capturará y almacenará los datos que, una vez anotados en las diferentes categorías, constituirán los conjuntos de datos del proyecto que se pondrán a disposición del público y que se utilizarán para explorar diferentes estrategias de fusión de datos y entrenamiento.  Objetivos secundarios relevantes, tales como el análisis de los límites de cada modo de imagen, una herramienta de anotación para imágenes multimodales, un procedimiento para la integración de hardware en un vehículo multimodal, la creación del primer conjunto de datos que involucra específicamente a usuarios de micromovilidad, el análisis de algoritmos de fusión temprana y tardía utilizando diferentes modos de imagen y la exploración de DNN multimodales de vanguardia, son todas ellas contribuciones directas a la precisión y fiabilidad de los vehículos autónomos que crearán herramientas para avanzar en el campo.

En consecuencia, el proyecto se ha dividido en tres paquetes de trabajo que cubren cada uno de estos grupos principales de tareas (integración de hardware de una unidad de recolección de datos multimodal, generación y publicación de conjuntos de datos, y entrenamiento de DNN utilizando datos multimodales), más uno inicial para definir en detalle los métodos del proyecto y aprovisionar los sensores. El equipo de investigación, según lo requerido por el esfuerzo multidisciplinar abordado, es diverso, ya que incluye especialistas en hardware (fotónica, ingenieros) y software (ingenieros de telecomunicaciones, MSc en visión por computador), ambos con perfiles senior (2 doctores) y junior (3 estudiantes de doctorado). El proyecto se basa en la experiencia en integración de sistemas, imágenes lidar y fusión de datos ya creada dentro de la UPC conjuntamente por una colaboración estable de CD6 (el grupo de Ingeniería Óptica y Sensores liderado por el IP, Santiago Royo) con GPI (el grupo de procesamiento de imágenes liderado por Josep Ramon Casas), ambos miembros del Equipo de Investigación del proyecto.  Esto da como resultado un proyecto verdaderamente multidisciplinar donde el software depende de la calidad de los datos generados por el hardware, pero el hardware es inútil sin una percepción efectiva que permita la toma de decisiones en el vehículo autónomo.

Proyecto TED2021-132338B-I00, financiado por MCIU/AEI/10.13039/501100011033 y por la Unión Europea Next Generation EU/PRTR