Многоцелевое обучение с подкреплением для эффективного тактического принятия решений грузовиками в условиях дорожного движения на автомагистралях

•

Оригинальный автор:Deepthi Pathare et al.

•

26 января 2026 г.

Многоцелевое обучение с подкреплением для эффективного тактического принятия решений грузовиками в условиях дорожного движения на автомагистралях

Изображение создано Gemini AI

Новая многоцелевой система обучения с подкреплением, использующая метод Proximal Policy Optimization, решает сложные задачи, связанные с компромиссами при движении по автомагистралям для тяжёлых грузовиков, балансируя безопасность, энергоэффективность и временные затраты. Она генерирует непрерывный набор парето-оптимальных политик, что позволяет гибко настраивать поведение вождения без необходимости повторного обучения. Этот адаптивный подход улучшает процесс принятия решений для автономных грузоперевозок и оценивается на масштабируемой симуляционной платформе.

Новая многокритериальная система обучения с подкреплением улучшает принятие решений для грузовиков на шоссе

Недавний прогресс в области многокритериального обучения с подкреплением представляет собой новую систему, предназначенную для оптимизации принятия решений для тяжелогрузных автомобилей в условиях дорожного движения. Этот подход решает проблему балансировки между безопасностью, энергоэффективностью и эксплуатационными затратами, которые представляют собой вызов для автономных транспортных средств.

Исследователи разработали систему на основе оптимизации проксимальной политики (PPO), которая генерирует непрерывный спектр политик, отражающих компромиссы между конкурирующими целями. Система была протестирована на масштабируемой платформе симуляции, демонстрируя свой потенциал в реальных приложениях.

Ключевые особенности системы

Предложенная система сосредоточена на трех основных целях:

Безопасность: Измеряется через частоту столкновений и успешных задач вождения.
Энергоэффективность: Оценивается по затратам энергии, понесённым в процессе работы.
Временная эффективность: Оценивается на основе затрат, связанных с временем водителя.

Этот подход приводит к плавной и интерпретируемой границе Парето, позволяя гибко принимать решения в зависимости от изменяющихся приоритетов среди конфликтующих целей.

Последствия для автономных грузоперевозок

Последствия этой системы значительны для автономных грузоперевозок, улучшая операционную эффективность и безопасность при развертывании автономных тяжелогрузных транспортных средств.

Связанные темы:

многоцелевое обучение с подкреплениемтактическое принятие решенийкомпромиссыпарето-оптимальные политикиавтономные грузовые перевозки

📰 Первоисточник: https://arxiv.org/abs/2601.18783v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit