Calibrazione di Bellman per il V-Learning nell'apprendimento per rinforzo offline

Immagine generata da Gemini AI
L'articolo presenta l'Iterated Bellman Calibration, un metodo indipendente dal modello per migliorare le previsioni di valore off-policy nei processi decisionali di Markov a orizzonte infinito. Assicurando che gli stati con ritorni previsti simili si allineino con i risultati dell'equazione di Bellman, utilizza tecniche di calibrazione istogramma e isotonica. Il metodo impiega un pseudo-risultato doppiamente robusto per i dati off-policy, offrendo un'iterazione del valore adattata in una dimensione, applicabile a qualsiasi stimatore di valore. È importante sottolineare che fornisce garanzie su campioni finiti senza la necessità di completezza o realizzabilità di Bellman, aumentando così l'affidabilità delle previsioni.
Nuovo Metodo Introdotto per la Calibrazione dell'Apprendimento per Rinforzo Offline
I ricercatori hanno svelato la Calibrazione di Bellman Iterata, una nuova procedura post-hoc progettata per migliorare le previsioni di valore off-policy nei processi decisionali Markoviani a orizzonte infinito. Questo approccio indipendente dal modello affronta la calibrazione dei ritorni a lungo termine previsti, garantendo che gli stati con previsioni analoghe siano allineati con l'equazione di Bellman sotto la politica target.
L'analisi associata a questo nuovo metodo di calibrazione offre garanzie su campioni finiti sia per l'accuratezza della calibrazione che per le prestazioni predittive, sotto assunzioni relativamente deboli. È importante notare che l'approccio non richiede completezza di Bellman o realizzabilità, condizioni che spesso risultano impegnative nei contesti di apprendimento per rinforzo.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2512.23694v1
Tutti i diritti e i crediti appartengono all'editore originale.