Confiance, méfiance ou changement : Apprentissage par renforcement robuste basé sur les préférences avec retour d'information multi-experts

•

Auteur original:Seyed Amir Hosseini et al.

•

26 janvier 2026

Confiance, méfiance ou changement : Apprentissage par renforcement robuste basé sur les préférences avec retour d'information multi-experts

Image générée par Gemini AI

TriTrust-PBRL (TTP) est un nouveau cadre conçu pour améliorer l'apprentissage par renforcement basé sur les préférences en s'attaquant aux défis posés par des annotateurs hétérogènes. Contrairement aux méthodes existantes, TTP apprend à la fois un modèle de récompense et des paramètres de confiance spécifiques aux experts, ce qui lui permet d'identifier et d'inverser les retours adverses. Cela se traduit par une robustesse significative, comme le montrent des tâches variées telles que MetaWorld et DM Control, où TTP surpasse les approches PBRL actuelles tout en maintenant une performance élevée, même face à des retours peu fiables. Le cadre fonctionne sans nécessiter de caractéristiques détaillées des experts, ce qui en fait un ajout fluide aux systèmes existants.

Nouveau cadre améliore l'apprentissage par renforcement basé sur les préférences en dépit de retours bruyants

Des chercheurs ont introduit TriTrust-PBRL (TTP), un nouveau cadre conçu pour améliorer l'apprentissage par renforcement basé sur les préférences (PBRL) en s'attaquant aux défis posés par des annotateurs hétérogènes. Cette approche permet de gérer efficacement les retours provenant de sources fiables et adversariales, renforçant ainsi considérablement la robustesse des algorithmes d'apprentissage.

Le cadre TTP introduit un mécanisme qui permet l'apprentissage d'un modèle de récompense partagé et de paramètres de confiance spécifiques aux experts, qui peuvent évoluer pendant l'optimisation. Cela se traduit par trois états distincts : positif (confiance), proche de zéro (ignorance) et négatif (nécessité de renverser la préférence). Cela permet au modèle d'inverser les préférences adversariales et d'extraire des signaux précieux au lieu de rejeter des données corrompues.

Pour valider TTP, les chercheurs ont mené des évaluations dans quatre domaines, y compris des tâches de manipulation de MetaWorld et des défis de locomotion de DM Control. Les résultats ont mis en évidence la robustesse supérieure de TTP, maintenant des performances proches des niveaux oracles dans des scénarios impliquant une corruption adversariale, tandis que les méthodes PBRL standard ont montré des échecs significatifs.

Notamment, TTP a surpassé les benchmarks existants en apprenant avec succès à partir de pools mixtes de retours d'experts, ne nécessitant aucune caractéristique supplémentaire des experts au-delà des indices d'identification, ce qui le rend facile à intégrer avec les pipelines PBRL existants.

Sujets connexes :

Apprentissage par renforcementpréférencesTriTrust-PBRLannotateurs adversariauxrobustesse

📰 Source originale : https://arxiv.org/abs/2601.18751v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit