IRL-DAL : Planification de trajectoire sécurisée et adaptative pour la conduite autonome grâce à des modèles de diffusion guidés par l'énergie

•

Auteur original:Seyed Ahmad Hosseini Miangoleh et al.

•

30 janvier 2026

IRL-DAL : Planification de trajectoire sécurisée et adaptative pour la conduite autonome grâce à des modèles de diffusion guidés par l'énergie

Image générée par Gemini AI

Un nouveau cadre, IRL-DAL, améliore la navigation des véhicules autonomes grâce à un planificateur adaptatif basé sur la diffusion. Ce système débute par un apprentissage par imitation à partir d'un contrôleur FSM expert, intégrant les retours environnementaux et les récompenses par apprentissage inverse (IRL). Cette approche atteint un taux de réussite de 96 % et réduit les collisions à 0,05 pour 1 000 étapes, améliorant considérablement la sécurité. Le code est disponible publiquement pour encourager la recherche complémentaire.

Le cadre IRL-DAL améliore la navigation des véhicules autonomes

Un nouveau cadre d'apprentissage par renforcement inversé nommé IRL-DAL est prêt à faire progresser la sécurité et l'adaptabilité de la planification des trajectoires dans les véhicules autonomes. Le système atteint un taux de réussite de 96 % et réduit considérablement les instances de collision à seulement 0,05 pour 1 000 étapes.

Le cadre IRL-DAL commence son entraînement par l'imitation d'un contrôleur de machine à états finis (FSM) expert, intégrant les retours environnementaux avec un signal de discriminateur d'apprentissage par renforcement inversé (IRL). Après cette phase, le système subit un apprentissage par renforcement (RL) utilisant une structure de récompense hybride qui combine des informations environnementales avec des incitations IRL ciblées.

Un composant crucial est un modèle de diffusion conditionnelle, qui agit comme un superviseur de sécurité pour planifier des trajectoires de conduite sûres et maintenir la discipline de voie. De plus, un masque adaptatif apprenable (LAM) améliore la perception du véhicule en ajustant l'attention visuelle en fonction de la vitesse et de la proximité des dangers.

Après la phase d'imitation initiale, la politique de conduite est affinée à l'aide de l'Optimisation de Politique Proximale (PPO), l'entraînement s'effectuant au sein du simulateur Webots.

IRL-DAL navigue habilement dans des environnements dangereux, démontrant une maîtrise de niveau expert dans des conditions de conduite complexes. L'équipe de recherche a rendu le code du cadre disponible publiquement pour encourager le développement ultérieur dans la conduite autonome.

Sujets connexes :

IRL-DALplanification de trajectoireapprentissage par renforcement inversevéhicules autonomessécurité.

📰 Source originale : https://arxiv.org/abs/2601.23266v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit