IRL-DAL: Planificación de trayectorias seguras y adaptativas para la conducción autónoma a través de modelos de difusión guiados por energía

•

Autor original:Seyed Ahmad Hosseini Miangoleh et al.

•

30 de enero de 2026

IRL-DAL: Planificación de trayectorias seguras y adaptativas para la conducción autónoma a través de modelos de difusión guiados por energía

Imagen generada por Gemini AI

Un nuevo marco, IRL-DAL, mejora la navegación de vehículos autónomos mediante un planificador adaptativo de anticipación basado en difusión. Comienza con el aprendizaje por imitación de un controlador FSM experto, integrando retroalimentación del entorno y recompensas de Aprendizaje por Refuerzo Inverso (IRL, por sus siglas en inglés). Este enfoque logra una tasa de éxito del 96% y reduce las colisiones a 0,05 por cada 1,000 pasos, lo que mejora significativamente la seguridad. El código está disponible públicamente para facilitar futuras investigaciones.

El Marco IRL-DAL Mejora la Navegación de Vehículos Autónomos

Un nuevo marco de aprendizaje por refuerzo inverso llamado IRL-DAL está diseñado para avanzar en la seguridad y adaptabilidad de la planificación de trayectorias en vehículos autónomos. El sistema logra una tasa de éxito del 96% y reduce drásticamente las instancias de colisiones a solo 0.05 por cada 1,000 pasos.

El marco IRL-DAL comienza su entrenamiento imitando a un controlador de máquina de estados finitos (FSM) experto, integrando la retroalimentación ambiental con una señal de discriminación de aprendizaje por refuerzo inverso (IRL). Tras esta fase, el sistema se somete a un aprendizaje por refuerzo (RL) utilizando una estructura de recompensas híbrida que combina información ambiental con incentivos específicos de IRL.

Un componente crucial es un modelo de difusión condicional, que actúa como supervisor de seguridad para planificar rutas de conducción seguras y mantener la disciplina de carril. Además, una máscara adaptativa aprendible (LAM) mejora la percepción del vehículo ajustando la atención visual según la velocidad y la proximidad a los peligros.

Después de la fase inicial de imitación, la política de conducción se refina utilizando Optimización de Políticas Proximales (PPO), con el entrenamiento llevándose a cabo dentro del simulador Webots.

IRL-DAL navega hábilmente en entornos inseguros, demostrando un manejo a nivel experto de condiciones de conducción complejas. El equipo de investigación ha hecho que el código del marco esté disponible públicamente para fomentar un mayor desarrollo en la conducción autónoma.

Temas relacionados:

Planificación de TrayectoriasConducción AutónomaAprendizaje por RefuerzoModelo de DifusiónOptimización de Política Proximal

📰 Fuente original: https://arxiv.org/abs/2601.23266v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit