高速公路交通中卡车高效战术决策的多目标强化学习

Gemini AI生成的图像
一种新的多目标强化学习框架,采用近端策略优化(PPO)算法,专门解决重型车辆在高速公路驾驶中的复杂权衡问题,平衡安全性、能效和时间效率。该框架生成了一系列连续的帕累托最优策略,使得在不需要重新训练的情况下,可以灵活调整驾驶行为。这种适应性强的方法提升了自动驾驶卡车的决策能力,并在一个可扩展的仿真平台上进行了评估。
新的多目标强化学习框架提升高速公路卡车的决策能力
最近在多目标强化学习方面的进展提出了一种新框架,旨在优化高速公路交通中重型卡车的决策能力。这种方法解决了安全性、能源效率和运营成本之间的平衡,这对自动驾驶车辆构成了挑战。
研究人员开发了一种基于近端策略优化(PPO)的系统,该系统生成一系列连续的策略,代表了竞争目标之间的权衡。该框架已在一个可扩展的仿真平台上进行了测试,展示了其在实际应用中的潜力。
框架的关键特性
所提出的框架侧重于三个主要目标:
- 安全性:通过碰撞频率和成功驾驶任务的数量来衡量。
- 能源效率:通过在操作中产生的能源成本来评估。
- 时间效率:根据与驾驶员时间相关的成本进行评估。
这种方法产生了一个平滑且可解释的帕累托前沿,允许根据冲突目标之间的不同优先级进行灵活的决策。
对自动驾驶卡车的影响
该框架对自动驾驶卡车的影响显著,提升了自动重型车辆部署的运营效率和安全性。
相关主题:
多目标强化学习高速公路交通卡车战术决策近端策略优化帕累托最优策略
📰 原始来源: https://arxiv.org/abs/2601.18783v1
所有权利和署名均属于原出版商。