Confiança, Desconfiança ou Inversão: Aprendizado por Reforço Baseado em Preferências Robusto com Feedback de Múltiplos Especialistas

•

Autor original:Seyed Amir Hosseini et al.

•

26 de janeiro de 2026

Confiança, Desconfiança ou Inversão: Aprendizado por Reforço Baseado em Preferências Robusto com Feedback de Múltiplos Especialistas

Imagem gerada por Gemini AI

TriTrust-PBRL (TTP) é uma nova estrutura desenvolvida para aprimorar o aprendizado por reforço baseado em preferências, ao enfrentar os desafios impostos por anotadores heterogêneos. Ao contrário dos métodos existentes, o TTP aprende tanto um modelo de recompensa quanto parâmetros de confiança específicos para cada especialista, permitindo identificar e inverter feedback adverso. Isso resulta em uma robustez significativa, como demonstrado em diversas tarefas, como MetaWorld e DM Control, onde o TTP supera as abordagens atuais de PBRL, mantendo um alto desempenho mesmo diante de feedbacks não confiáveis. A estrutura opera sem a necessidade de características detalhadas dos especialistas, tornando-se uma adição fluida aos sistemas existentes.

Novo Framework Melhora o Aprendizado por Reforço Baseado em Preferências em Meio a Feedbacks Ruidosos

Pesquisadores apresentaram o TriTrust-PBRL (TTP), um novo framework projetado para melhorar o aprendizado por reforço baseado em preferências (PBRL) ao abordar os desafios impostos por anotadores heterogêneos. Essa abordagem permite o manejo eficaz de feedbacks tanto de fontes confiáveis quanto adversariais, aprimorando significativamente a robustez dos algoritmos de aprendizado.

O framework TTP introduz um mecanismo que permite o aprendizado de um modelo de recompensa compartilhado e parâmetros de confiança específicos de especialistas, os quais podem evoluir durante a otimização. Isso resulta em três estados distintos: positivo (confiança), quase zero (ignorância) e negativo (necessidade de inverter a preferência). Isso permite que o modelo inverta preferências adversariais e extraia sinais valiosos em vez de descartar dados corrompidos.

Para validar o TTP, os pesquisadores realizaram avaliações em quatro domínios, incluindo tarefas de manipulação do MetaWorld e desafios de locomoção do DM Control. Os resultados destacaram a robustez superior do TTP, mantendo um desempenho próximo aos níveis de oráculo em cenários envolvendo corrupção adversarial, enquanto métodos padrão de PBRL apresentaram falhas significativas.

Notavelmente, o TTP superou benchmarks existentes ao aprender com pools mistos de feedback de especialistas, não exigindo recursos adicionais de especialistas além de índices de identificação, facilitando sua integração com pipelines de PBRL existentes.

Tópicos relacionados:

aprendizado por reforçopreferênciasTriTrust-PBRLfeedback de múltiplos especialistasrobustez

📰 Fonte original: https://arxiv.org/abs/2601.18751v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit