IRL-DAL: Безопасное и адаптивное планирование траекторий для автономного вождения с использованием моделей диффузии, ориентированных на энергию

•

Оригинальный автор:Seyed Ahmad Hosseini Miangoleh et al.

•

30 января 2026 г.

IRL-DAL: Безопасное и адаптивное планирование траекторий для автономного вождения с использованием моделей диффузии, ориентированных на энергию

Изображение создано Gemini AI

Новая система IRL-DAL улучшает навигацию автономных транспортных средств с помощью адаптивного планировщика, основанного на диффузии. Она начинается с обучения подражанию на основе экспертного контроллера конечного автомата (FSM), интегрируя обратную связь от окружающей среды и вознаграждения по методу обратного обучения с подкреплением (IRL). Данный подход демонстрирует уровень успеха 96% и снижает количество столкновений до 0,05 на 1 000 шагов, что значительно повышает безопасность. Код доступен для публичного использования, что открывает возможности для дальнейших исследований.

IRL-DAL Фреймворк Улучшает Навигацию Автономных Транспортных Средств

Новый фреймворк инверсного подкрепляющего обучения под названием IRL-DAL призван повысить безопасность и адаптивность планирования траекторий в автономных транспортных средствах. Система достигает 96% уровня успеха и значительно сокращает количество столкновений до всего лишь 0,05 на 1,000 шагов.

Фреймворк IRL-DAL начинает обучение через имитацию эксперта, контролирующего конечный автомат (FSM), интегрируя обратную связь от окружающей среды с сигналом дискриминатора инверсного подкрепляющего обучения (IRL). После этого этапа система проходит обучение с подкреплением (RL), используя гибридную структуру наград, которая сочетает в себе данные об окружающей среде и целевые стимулы IRL.

Ключевым компонентом является условная диффузионная модель, которая выступает в роли контроллера безопасности для планирования безопасных маршрутов и поддержания дисциплины в полосе движения. Кроме того, обучаемая адаптивная маска (LAM) улучшает восприятие автомобиля, регулируя визуальное внимание в зависимости от скорости и близости к опасностям.

После начальной фазы имитации политика вождения уточняется с помощью оптимизации проксимальной политики (PPO), при этом обучение происходит в симуляторе Webots.

IRL-DAL успешно ориентируется в небезопасных условиях, демонстрируя мастерское управление в сложных ситуациях вождения. Исследовательская группа сделала код фреймворка общедоступным, чтобы способствовать дальнейшему развитию в области автономного вождения.

Связанные темы:

безопасное планированиеавтономное вождениедиффузионные моделиобучение с подкреплениемоптимизация проксимальной политики

📰 Первоисточник: https://arxiv.org/abs/2601.23266v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit