AI
Notizie IA

Calibrazione di Bellman per il V-Learning nell'apprendimento per rinforzo offline

Source:arXiv
Autore originale:Lars van der Laan et al.
Calibrazione di Bellman per il V-Learning nell'apprendimento per rinforzo offline

Immagine generata da Gemini AI

L'articolo presenta l'Iterated Bellman Calibration, un metodo indipendente dal modello per migliorare le previsioni di valore off-policy nei processi decisionali di Markov a orizzonte infinito. Assicurando che gli stati con ritorni previsti simili si allineino con i risultati dell'equazione di Bellman, utilizza tecniche di calibrazione istogramma e isotonica. Il metodo impiega un pseudo-risultato doppiamente robusto per i dati off-policy, offrendo un'iterazione del valore adattata in una dimensione, applicabile a qualsiasi stimatore di valore. È importante sottolineare che fornisce garanzie su campioni finiti senza la necessità di completezza o realizzabilità di Bellman, aumentando così l'affidabilità delle previsioni.

Nuovo Metodo Introdotto per la Calibrazione dell'Apprendimento per Rinforzo Offline

I ricercatori hanno svelato la Calibrazione di Bellman Iterata, una nuova procedura post-hoc progettata per migliorare le previsioni di valore off-policy nei processi decisionali Markoviani a orizzonte infinito. Questo approccio indipendente dal modello affronta la calibrazione dei ritorni a lungo termine previsti, garantendo che gli stati con previsioni analoghe siano allineati con l'equazione di Bellman sotto la politica target.

L'analisi associata a questo nuovo metodo di calibrazione offre garanzie su campioni finiti sia per l'accuratezza della calibrazione che per le prestazioni predittive, sotto assunzioni relativamente deboli. È importante notare che l'approccio non richiede completezza di Bellman o realizzabilità, condizioni che spesso risultano impegnative nei contesti di apprendimento per rinforzo.

Argomenti correlati:

Calibrazione di BellmanV-LearningApprendimento per Rinforzo Offlineprocessi decisionali di Markovdati off-policy

📰 Fonte originale: https://arxiv.org/abs/2512.23694v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo