Calibração de Bellman para V-Learning em Aprendizado por Reforço Offline

Imagem gerada por Gemini AI
O artigo apresenta a Calibração Iterada de Bellman, um método independente de modelo para aprimorar as previsões de valor fora da política em processos de decisão de Markov de horizonte infinito. Ao garantir que estados com retornos previstos semelhantes se alinhem aos resultados da equação de Bellman, ele utiliza técnicas de calibração por histograma e isotônica. O método emprega um pseudo-resultado duplamente robusto para dados fora da política, oferecendo uma iteração de valor ajustada em uma dimensão que é aplicável a qualquer estimador de valor. É importante ressaltar que ele fornece garantias de amostra finita sem a necessidade de completude ou realizabilidade de Bellman, aumentando a confiabilidade das previsões.
Novo Método Introduzido para Calibração de Aprendizado por Reforço Offline
Pesquisadores revelaram a Calibração Bellman Iterativa, um novo procedimento pós-hoc destinado a aprimorar as previsões de valor fora da política em processos de decisão de Markov de horizonte infinito. Essa abordagem independente de modelo aborda a calibração dos retornos de longo prazo previstos, garantindo que estados com previsões análogas estejam alinhados com a equação de Bellman sob a política alvo.
A análise associada a este novo método de calibração oferece garantias de amostra finita tanto para a precisão da calibração quanto para o desempenho preditivo sob suposições relativamente fracas. Notavelmente, a abordagem não exige completude ou realizabilidade de Bellman, que são condições frequentemente desafiadoras em contextos de aprendizado por reforço.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2512.23694v1
Todos os direitos e créditos pertencem ao editor original.