Fiducia, Mancanza di Fiducia o Cambiamento: Apprendimento per Rinforzo Basato su Preferenze Robuste con Feedback Multi-Esperto

•

Autore originale:Seyed Amir Hosseini et al.

•

26 gennaio 2026

Fiducia, Mancanza di Fiducia o Cambiamento: Apprendimento per Rinforzo Basato su Preferenze Robuste con Feedback Multi-Esperto

Immagine generata da Gemini AI

TriTrust-PBRL (TTP) è un nuovo framework progettato per migliorare l'apprendimento per rinforzo basato sulle preferenze, affrontando le sfide poste da annotatori eterogenei. A differenza dei metodi esistenti, TTP apprende sia un modello di ricompensa che parametri di fiducia specifici per ogni esperto, permettendo così di identificare e invertire feedback avversi. Questo approccio porta a una robustezza significativa, come dimostrato in vari compiti, tra cui MetaWorld e DM Control, dove TTP supera le attuali metodologie PBRL, mantenendo elevate prestazioni anche in presenza di feedback inaffidabili. Il framework funziona senza la necessità di dettagliate caratteristiche degli esperti, rendendolo un'aggiunta fluida ai sistemi esistenti.

Il Nuovo Framework Migliora il Reinforcement Learning Basato sulle Preferenze in Presenza di Feedback Rumoroso

I ricercatori hanno introdotto TriTrust-PBRL (TTP), un nuovo framework progettato per migliorare il reinforcement learning basato sulle preferenze (PBRL) affrontando le sfide poste da annotatori eterogenei. Questo approccio consente una gestione efficace del feedback proveniente sia da fonti affidabili che avversarie, migliorando significativamente la robustezza degli algoritmi di apprendimento.

Il framework TTP introduce un meccanismo che consente l'apprendimento di un modello di ricompensa condiviso e di parametri di fiducia specifici per gli esperti, che possono evolversi durante l'ottimizzazione. Questo porta a tre stati distinti: positivo (fiducia), quasi zero (ignoranza) e negativo (necessità di invertire la preferenza). Ciò consente al modello di invertire le preferenze avversarie ed estrarre segnali preziosi invece di scartare dati corrotti.

Per convalidare TTP, i ricercatori hanno condotto valutazioni in quattro domini, comprese le attività di manipolazione di MetaWorld e le sfide di locomozione di DM Control. I risultati hanno evidenziato la superiore robustezza di TTP, mantenendo prestazioni vicine ai livelli oracle in scenari che coinvolgono corruzione avversaria, mentre i metodi PBRL standard hanno mostrato significativi fallimenti.

È importante notare che TTP ha superato i benchmark esistenti apprendendo con successo da pool misti di feedback esperto, senza richiedere ulteriori caratteristiche esperte oltre agli indici di identificazione, rendendo facile l'integrazione con i pipeline PBRL esistenti.

Argomenti correlati:

Apprendimento per rinforzo basato su preferenzefeedback multi-espertoTriTrust-PBRLannotatori avversarialirobustezza all'avanguardia

📰 Fonte originale: https://arxiv.org/abs/2601.18751v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit