AI
Notícias IA

Calibração de Bellman para V-Learning em Aprendizado por Reforço Offline

Source:arXiv
Autor original:Lars van der Laan et al.
Calibração de Bellman para V-Learning em Aprendizado por Reforço Offline

Imagem gerada por Gemini AI

O artigo apresenta a Calibração Iterada de Bellman, um método independente de modelo para aprimorar as previsões de valor fora da política em processos de decisão de Markov de horizonte infinito. Ao garantir que estados com retornos previstos semelhantes se alinhem aos resultados da equação de Bellman, ele utiliza técnicas de calibração por histograma e isotônica. O método emprega um pseudo-resultado duplamente robusto para dados fora da política, oferecendo uma iteração de valor ajustada em uma dimensão que é aplicável a qualquer estimador de valor. É importante ressaltar que ele fornece garantias de amostra finita sem a necessidade de completude ou realizabilidade de Bellman, aumentando a confiabilidade das previsões.

Novo Método Introduzido para Calibração de Aprendizado por Reforço Offline

Pesquisadores revelaram a Calibração Bellman Iterativa, um novo procedimento pós-hoc destinado a aprimorar as previsões de valor fora da política em processos de decisão de Markov de horizonte infinito. Essa abordagem independente de modelo aborda a calibração dos retornos de longo prazo previstos, garantindo que estados com previsões análogas estejam alinhados com a equação de Bellman sob a política alvo.

A análise associada a este novo método de calibração oferece garantias de amostra finita tanto para a precisão da calibração quanto para o desempenho preditivo sob suposições relativamente fracas. Notavelmente, a abordagem não exige completude ou realizabilidade de Bellman, que são condições frequentemente desafiadoras em contextos de aprendizado por reforço.

Tópicos relacionados:

Calibração de BellmanV-LearningAprendizado por Reforço Offlineprocessos de decisão de Markoviteração de valor ajustado

📰 Fonte original: https://arxiv.org/abs/2512.23694v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo