Доверять, не доверять или переключаться: надежное предпочтительное обучение с подкреплением с многоэкспертной обратной связью

•

Оригинальный автор:Seyed Amir Hosseini et al.

•

26 января 2026 г.

Доверять, не доверять или переключаться: надежное предпочтительное обучение с подкреплением с многоэкспертной обратной связью

Изображение создано Gemini AI

TriTrust-PBRL (TTP) — это новая структура, разработанная для улучшения обучения с подкреплением на основе предпочтений, которая решает проблемы, возникающие из-за различий в мнениях аннотаторов. В отличие от существующих методов, TTP обучает как модель вознаграждения, так и параметры доверия, специфичные для каждого эксперта, что позволяет ей выявлять и инвертировать недобросовестную обратную связь. Это обеспечивает значительную устойчивость, о чем свидетельствуют результаты в различных задачах, таких как MetaWorld и DM Control, где TTP превосходит текущие подходы PBRL, сохраняя высокую эффективность даже при ненадежной обратной связи. Структура работает без необходимости в детализированных характеристиках экспертов, что делает её легким дополнением к существующим системам.

Новый фреймворк улучшает обучение с подкреплением на основе предпочтений в условиях шумной обратной связи

Исследователи представили TriTrust-PBRL (TTP), новый фреймворк, предназначенный для улучшения обучения с подкреплением на основе предпочтений (PBRL) путем решения проблем, возникающих из-за неоднородных аннотаторов. Этот подход позволяет эффективно обрабатывать обратную связь как от надежных, так и от враждебных источников, значительно повышая устойчивость алгоритмов обучения.

Фреймворк TTP вводит механизм, который позволяет обучать общую модель вознаграждения и специфические для экспертов параметры доверия, которые могут изменяться в процессе оптимизации. Это приводит к трем различным состояниям: положительному (доверие), близкому к нулю (игнорирование) и отрицательному (необходимость изменить предпочтение). Это позволяет модели инвертировать враждебные предпочтения и извлекать ценные сигналы вместо того, чтобы отбрасывать испорченные данные.

Для валидации TTP исследователи провели оценки в четырех областях, включая манипуляционные задачи из MetaWorld и задачи локомоции из DM Control. Результаты подчеркнули превосходную устойчивость TTP, поддерживая производительность на уровне, близком к уровню оракула в сценариях с враждебным загрязнением, в то время как стандартные методы PBRL демонстрировали значительные сбои.

Примечательно, что TTP превосходит существующие эталоны, успешно обучаясь на смешанных группах экспертной обратной связи, не требуя дополнительных экспертных характеристик, кроме индексов идентификации, что облегчает интеграцию с существующими PBRL-пайплайнами.

Связанные темы:

Устойчивое предпочтительное обучениемножественная экспертная обратная связьTriTrust-PBRLвраждебные аннотаторыградиентная оптимизация

📰 Первоисточник: https://arxiv.org/abs/2601.18751v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit