信任、非信任或反转：基于偏好的强健强化学习与多专家反馈

•

原作者:Seyed Amir Hosseini et al.

•

2026年1月26日

Gemini AI生成的图像

TriTrust-PBRL (TTP) 是一个全新的框架，旨在通过解决异质注释者所带来的挑战，增强基于偏好的强化学习。与现有方法不同，TTP 同时学习奖励模型和专家特定的信任参数，从而能够识别并逆转对抗性反馈。这种设计显著增强了系统的鲁棒性，正如在 MetaWorld 和 DM Control 等多项任务中所展示的，TTP 的表现超过了目前的 PBRL 方法，即使在面对不可靠反馈时，依然能够保持高效能。此外，该框架的运行不需要详细的专家特征，使其能够无缝集成到现有系统中。

新框架提升了在噪声反馈下的基于偏好的强化学习

研究人员推出了TriTrust-PBRL (TTP)，这是一个新颖的框架，旨在通过解决异质注释者带来的挑战来改进基于偏好的强化学习（PBRL）。这种方法能够有效处理来自可靠和对抗性来源的反馈，显著增强学习算法的鲁棒性。

TTP框架引入了一种机制，使得可以学习共享奖励模型和专家特定的信任参数，这些参数可以在优化过程中演变。这导致了三种不同的状态：正面（信任）、接近零（无知）和负面（需要翻转偏好）。这使得模型能够反转对抗性偏好，并提取有价值的信号，而不是丢弃被损坏的数据。

为了验证TTP，研究人员在四个领域进行了评估，包括来自MetaWorld的操作任务和来自DM Control的运动挑战。结果突显了TTP的卓越鲁棒性，在涉及对抗性腐蚀的场景中，保持了接近于oracle水平的表现，而标准的PBRL方法则表现出显著的失败。

值得注意的是，TTP在成功从混合的专家反馈池中学习方面超越了现有基准，不需要除了识别索引之外的额外专家特征，使其容易与现有的PBRL管道集成。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

信任、非信任或反转：基于偏好的强健强化学习与多专家反馈

新框架提升了在噪声反馈下的基于偏好的强化学习

相关主题：

分享此文章