AI
AI新闻

离线强化学习中的V学习的Bellman校准

Source:arXiv
原作者:Lars van der Laan et al.
离线强化学习中的V学习的Bellman校准

Gemini AI生成的图像

本文介绍了迭代贝尔曼校准(Iterated Bellman Calibration),这是一种模型无关的方法,旨在改善无限时域马尔可夫决策过程中的离线价值预测。通过确保具有相似预测收益的状态与贝尔曼方程的结果相一致,该方法利用了直方图和单调校准技术。该方法采用了一种双重稳健的伪结果来处理离线数据,提供了一种适用于任何价值估计器的一维拟合价值迭代。值得注意的是,该方法在不需要贝尔曼完备性或可实现性的情况下,提供了有限样本保证,从而增强了预测的可靠性。

引入离线强化学习校准的新方法

研究人员揭示了迭代贝尔曼校准,这是一种新颖的后处理程序,旨在增强无限时间范围马尔可夫决策过程中的离策略价值预测。这种与模型无关的方法解决了预测长期回报的校准问题,确保具有相似预测的状态与目标策略下的贝尔曼方程对齐。

与这一新校准方法相关的分析提供了有限样本保证,确保在相对较弱的假设下的校准精度和预测性能。值得注意的是,该方法不需要贝尔曼完备性或可实现性,这在强化学习的背景下通常是具有挑战性的条件。

相关主题:

离线强化学习贝尔曼校准马尔可夫决策过程价值预测动态反事实环境

📰 原始来源: https://arxiv.org/abs/2512.23694v1

所有权利和署名均属于原出版商。

分享此文章