IRL-DAL: Безопасное и адаптивное планирование траекторий для автономного вождения с использованием моделей диффузии, ориентированных на энергию

Изображение создано Gemini AI
Новая система IRL-DAL улучшает навигацию автономных транспортных средств с помощью адаптивного планировщика, основанного на диффузии. Она начинается с обучения подражанию на основе экспертного контроллера конечного автомата (FSM), интегрируя обратную связь от окружающей среды и вознаграждения по методу обратного обучения с подкреплением (IRL). Данный подход демонстрирует уровень успеха 96% и снижает количество столкновений до 0,05 на 1 000 шагов, что значительно повышает безопасность. Код доступен для публичного использования, что открывает возможности для дальнейших исследований.
IRL-DAL Фреймворк Улучшает Навигацию Автономных Транспортных Средств
Новый фреймворк инверсного подкрепляющего обучения под названием IRL-DAL призван повысить безопасность и адаптивность планирования траекторий в автономных транспортных средствах. Система достигает 96% уровня успеха и значительно сокращает количество столкновений до всего лишь 0,05 на 1,000 шагов.
Фреймворк IRL-DAL начинает обучение через имитацию эксперта, контролирующего конечный автомат (FSM), интегрируя обратную связь от окружающей среды с сигналом дискриминатора инверсного подкрепляющего обучения (IRL). После этого этапа система проходит обучение с подкреплением (RL), используя гибридную структуру наград, которая сочетает в себе данные об окружающей среде и целевые стимулы IRL.
Ключевым компонентом является условная диффузионная модель, которая выступает в роли контроллера безопасности для планирования безопасных маршрутов и поддержания дисциплины в полосе движения. Кроме того, обучаемая адаптивная маска (LAM) улучшает восприятие автомобиля, регулируя визуальное внимание в зависимости от скорости и близости к опасностям.
После начальной фазы имитации политика вождения уточняется с помощью оптимизации проксимальной политики (PPO), при этом обучение происходит в симуляторе Webots.
IRL-DAL успешно ориентируется в небезопасных условиях, демонстрируя мастерское управление в сложных ситуациях вождения. Исследовательская группа сделала код фреймворка общедоступным, чтобы способствовать дальнейшему развитию в области автономного вождения.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.23266v1
Все права и авторство принадлежат первоначальному издателю.