Vertrauen, Nicht Vertrauen oder Umschalten: Robustes, präferenzbasiertes Reinforcement Learning mit Multi-Expert-Feedback

Von Gemini AI generiertes Bild
TriTrust-PBRL (TTP) ist ein neues Framework, das entwickelt wurde, um das präferenzbasierte Verstärkungslernen (PBRL) zu verbessern, indem es die Herausforderungen durch heterogene Annotatoren angeht. Im Gegensatz zu bestehenden Methoden erlernt TTP sowohl ein Belohnungsmodell als auch experten-spezifische Vertrauensparameter. Dadurch kann das System feindliche Rückmeldungen identifizieren und umkehren. Dies führt zu einer signifikanten Robustheit, wie in verschiedenen Aufgaben wie MetaWorld und DM Control demonstriert, wo TTP die derzeitigen PBRL-Ansätze übertrifft und auch bei unzuverlässigem Feedback eine hohe Leistungsfähigkeit aufrechterhält. Das Framework benötigt keine detaillierten Expertenmerkmale, was es zu einer nahtlosen Ergänzung bestehender Systeme macht.
Neues Framework verbessert die präferenzbasierte Verstärkungslernen inmitten rauschhafter Rückmeldungen
Forscher haben TriTrust-PBRL (TTP) eingeführt, ein neuartiges Framework, das darauf abzielt, das präferenzbasierte Verstärkungslernen (PBRL) zu verbessern, indem es Herausforderungen durch heterogene Annotatoren angeht. Dieser Ansatz ermöglicht eine effektive Handhabung von Rückmeldungen sowohl aus zuverlässigen als auch aus gegnerischen Quellen, was die Robustheit der Lernalgorithmen erheblich steigert.
Das TTP-Framework führt einen Mechanismus ein, der das Lernen eines gemeinsamen Belohnungsmodells sowie von experten-spezifischen Vertrauensparametern ermöglicht, die sich während der Optimierung entwickeln können. Dies führt zu drei unterschiedlichen Zuständen: positiv (Vertrauen), nahezu null (Ignoranz) und negativ (Notwendigkeit, die Präferenz umzukehren). Dadurch kann das Modell gegnerische Präferenzen umkehren und wertvolle Signale extrahieren, anstatt korrupte Daten zu verwerfen.
Zur Validierung von TTP führten die Forscher Bewertungen in vier Bereichen durch, darunter Manipulationsaufgaben aus MetaWorld und Lokomotionsherausforderungen aus DM Control. Die Ergebnisse hoben die überlegene Robustheit von TTP hervor, das die Leistung nahe den Oracle-Niveaus in Szenarien mit gegnerischer Korruption aufrechterhielt, während standardmäßige PBRL-Methoden erhebliche Mängel aufwiesen.
Bemerkenswerterweise übertraf TTP bestehende Benchmarks, indem es erfolgreich aus gemischten Pools von Expertenrückmeldungen lernte, ohne zusätzliche Expertenmerkmale über Identifikationsindizes hinaus zu benötigen, was die Integration in bestehende PBRL-Pipelines erleichtert.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2601.18751v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.