Confianza, Desconfianza o Cambio: Aprendizaje por Refuerzo Basado en Preferencias Robusto con Retroalimentación de Múltiples Expertos

Imagen generada por Gemini AI
TriTrust-PBRL (TTP) es un nuevo marco diseñado para mejorar el aprendizaje por refuerzo basado en preferencias al abordar los desafíos que presentan los anotadores heterogéneos. A diferencia de los métodos existentes, TTP aprende tanto un modelo de recompensa como parámetros de confianza específicos de cada experto, lo que le permite identificar e invertir la retroalimentación adversarial. Esto se traduce en una robustez significativa, como se ha demostrado en diversas tareas, como MetaWorld y DM Control, donde TTP supera los enfoques actuales de PBRL, manteniendo un alto rendimiento incluso con retroalimentación poco fiable. El marco funciona sin necesidad de características detalladas de los expertos, lo que lo convierte en una adición fluida a los sistemas ya existentes.
Nuevo Marco Mejora el Aprendizaje por Refuerzo Basado en Preferencias Ante Retroalimentación Ruidosa
Los investigadores han introducido TriTrust-PBRL (TTP), un nuevo marco diseñado para mejorar el aprendizaje por refuerzo basado en preferencias (PBRL) al abordar los desafíos planteados por anotadores heterogéneos. Este enfoque permite manejar de manera efectiva la retroalimentación de fuentes tanto confiables como adversariales, mejorando significativamente la robustez de los algoritmos de aprendizaje.
El marco TTP introduce un mecanismo que permite el aprendizaje de un modelo de recompensa compartido y parámetros de confianza específicos de expertos, que pueden evolucionar durante la optimización. Esto resulta en tres estados distintos: positivo (confianza), casi cero (ignorancia) y negativo (necesidad de invertir la preferencia). Esto permite al modelo invertir las preferencias adversariales y extraer señales valiosas en lugar de descartar datos corruptos.
Para validar TTP, los investigadores realizaron evaluaciones en cuatro dominios, incluyendo tareas de manipulación de MetaWorld y desafíos de locomoción de DM Control. Los resultados destacaron la superior robustez de TTP, manteniendo un rendimiento cercano a los niveles de oráculo en escenarios que involucraban corrupción adversarial, mientras que los métodos estándar de PBRL mostraron fallas significativas.
Notablemente, TTP superó los puntos de referencia existentes al aprender con éxito de conjuntos mixtos de retroalimentación de expertos, sin requerir características adicionales de expertos más allá de los índices de identificación, lo que facilita su integración con las tuberías de PBRL existentes.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2601.18751v1
Todos los derechos y créditos pertenecen al editor original.