信任、非信任或反转:基于偏好的强健强化学习与多专家反馈

Gemini AI生成的图像
TriTrust-PBRL (TTP) 是一个全新的框架,旨在通过解决异质注释者所带来的挑战,增强基于偏好的强化学习。与现有方法不同,TTP 同时学习奖励模型和专家特定的信任参数,从而能够识别并逆转对抗性反馈。这种设计显著增强了系统的鲁棒性,正如在 MetaWorld 和 DM Control 等多项任务中所展示的,TTP 的表现超过了目前的 PBRL 方法,即使在面对不可靠反馈时,依然能够保持高效能。此外,该框架的运行不需要详细的专家特征,使其能够无缝集成到现有系统中。
新框架提升了在噪声反馈下的基于偏好的强化学习
研究人员推出了TriTrust-PBRL (TTP),这是一个新颖的框架,旨在通过解决异质注释者带来的挑战来改进基于偏好的强化学习(PBRL)。这种方法能够有效处理来自可靠和对抗性来源的反馈,显著增强学习算法的鲁棒性。
TTP框架引入了一种机制,使得可以学习共享奖励模型和专家特定的信任参数,这些参数可以在优化过程中演变。这导致了三种不同的状态:正面(信任)、接近零(无知)和负面(需要翻转偏好)。这使得模型能够反转对抗性偏好,并提取有价值的信号,而不是丢弃被损坏的数据。
为了验证TTP,研究人员在四个领域进行了评估,包括来自MetaWorld的操作任务和来自DM Control的运动挑战。结果突显了TTP的卓越鲁棒性,在涉及对抗性腐蚀的场景中,保持了接近于oracle水平的表现,而标准的PBRL方法则表现出显著的失败。
值得注意的是,TTP在成功从混合的专家反馈池中学习方面超越了现有基准,不需要除了识别索引之外的额外专家特征,使其容易与现有的PBRL管道集成。
相关主题:
基于偏好的强化学习TriTrust-PBRL多专家反馈信任参数稳健性研究
📰 原始来源: https://arxiv.org/abs/2601.18751v1
所有权利和署名均属于原出版商。