Calibración de Bellman para V-Aprendizaje en Aprendizaje por Refuerzo Offline

Imagen generada por Gemini AI
El artículo presenta la Calibración Bellman Iterada, un método independiente del modelo para mejorar las predicciones de valor fuera de política en procesos de decisión de Markov de horizonte infinito. Al asegurar que los estados con retornos predichos similares se alineen con los resultados de la ecuación de Bellman, utiliza técnicas de calibración de histograma e isotónica. Este enfoque emplea un pseudo-resultado doblemente robusto para datos fuera de política, ofreciendo una iteración de valor ajustada en una dimensión que es aplicable a cualquier estimador de valor. Es importante destacar que proporciona garantías de muestra finita sin necesidad de completar o realizar la ecuación de Bellman, lo que mejora la fiabilidad de las predicciones.
Nuevo Método Introducido para la Calibración de Aprendizaje por Refuerzo Offline
Los investigadores han presentado la Calibración Bellman Iterada, un novedoso procedimiento post-hoc diseñado para mejorar las predicciones de valor fuera de política en procesos de decisión de Markov de horizonte infinito. Este enfoque agnóstico al modelo aborda la calibración de los retornos a largo plazo predichos, asegurando que los estados con predicciones análogas se alineen con la ecuación de Bellman bajo la política objetivo.
El análisis asociado con este nuevo método de calibración ofrece garantías de muestra finita tanto para la precisión de la calibración como para el rendimiento predictivo bajo supuestos relativamente débiles. Es importante destacar que el enfoque no requiere completitud de Bellman ni realizabilidad, condiciones que a menudo son desafiantes en contextos de aprendizaje por refuerzo.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2512.23694v1
Todos los derechos y créditos pertenecen al editor original.