Apprentissage par renforcement multi-objectifs pour une prise de décision tactique efficace des camions dans le trafic autoroutier

•

Auteur original:Deepthi Pathare et al.

•

26 janvier 2026

Apprentissage par renforcement multi-objectifs pour une prise de décision tactique efficace des camions dans le trafic autoroutier

Image générée par Gemini AI

Un nouveau cadre d'apprentissage par renforcement multi-objectifs utilisant l'optimisation de politique proximale (PPO) s'attaque aux compromis complexes rencontrés lors de la conduite sur autoroute pour les véhicules lourds, en équilibrant sécurité, efficacité énergétique et efficacité temporelle. Ce système génère un ensemble continu de politiques Pareto-optimales, permettant des ajustements flexibles du comportement de conduite sans nécessiter de réentraînement. Cette approche adaptable améliore la prise de décision pour le transport autonome, évaluée sur une plateforme de simulation évolutive.

Nouveau Cadre d'Apprentissage par Renforcement Multi-Objectif Améliore la Prise de Décision pour les Camions sur Autoroute

Une avancée récente dans l'apprentissage par renforcement multi-objectif présente un cadre novateur conçu pour optimiser la prise de décision pour les camions lourds dans le trafic autoroutier. Cette approche traite de l'équilibre entre la sécurité, l'efficacité énergétique et les coûts opérationnels, qui a posé des défis pour les véhicules autonomes.

Les chercheurs ont développé un système basé sur l'Optimisation de Politique Proximale (PPO) qui génère un spectre continu de politiques, représentant les compromis entre des objectifs concurrents. Le cadre a été testé sur une plateforme de simulation évolutive, démontrant son potentiel dans des applications réelles.

Caractéristiques Clés du Cadre

Le cadre proposé se concentre sur trois objectifs principaux :

Sécurité : Mesurée par la fréquence des collisions et des tâches de conduite réussies.
Efficacité Énergétique : Évaluée par les coûts énergétiques engagés pendant l'opération.
Efficacité Temporelle : Appréciée en fonction des coûts associés au temps de conduite.

Cette approche aboutit à une frontière de Pareto lisse et interprétable, permettant une prise de décision flexible basée sur des priorités variables entre des objectifs conflictuels.

Implications pour le Transport Autonome

Les implications de ce cadre sont significatives pour le transport autonome, améliorant l'efficacité opérationnelle et la sécurité dans le déploiement de véhicules lourds autonomes.

Sujets connexes :

apprentissage par renforcement multi-objectifsprise de décision tactiquesécuritéefficacité énergétiquepolitiques Pareto-optimales

📰 Source originale : https://arxiv.org/abs/2601.18783v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit