Calibration de Bellman pour l'apprentissage V dans l'apprentissage par renforcement hors ligne

Image générée par Gemini AI
L'article présente la Calibration de Bellman itérée, une méthode indépendante du modèle visant à améliorer les prédictions de valeur hors politique dans des processus de décision de Markov à horizon infini. En veillant à ce que les états ayant des retours prévus similaires soient alignés avec les résultats de l'équation de Bellman, cette méthode utilise des techniques de calibration par histogramme et isotoniques. Elle emploie un pseudo-résultat doublement robuste pour les données hors politique, permettant une itération de valeur ajustée en une dimension, applicable à tout estimateur de valeur. Il est essentiel de noter qu'elle offre des garanties sur les échantillons finis sans nécessiter la complétude de Bellman ou la réalisabilité, renforçant ainsi la fiabilité des prédictions.
Une nouvelle méthode introduite pour la calibration de l'apprentissage par renforcement hors ligne
Les chercheurs ont dévoilé la Calibration de Bellman Itérée, une procédure post-hoc novatrice visant à améliorer les prévisions de valeur hors politique dans les processus de décision de Markov à horizon infini. Cette approche indépendante du modèle traite la calibration des rendements à long terme prévus, garantissant que les états avec des prédictions similaires s'alignent avec l'équation de Bellman sous la politique cible.
L'analyse associée à cette nouvelle méthode de calibration offre des garanties d'échantillon fini tant pour la précision de calibration que pour la performance prédictive sous des hypothèses relativement faibles. Il est à noter que l'approche ne nécessite pas la complétude de Bellman ou la réalisabilité, qui sont souvent des conditions difficiles dans les contextes d'apprentissage par renforcement.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2512.23694v1
Tous les droits et crédits appartiennent à l'éditeur original.