离线强化学习中的V学习的Bellman校准

•

原作者:Lars van der Laan et al.

•

2025年12月29日

Gemini AI生成的图像

本文介绍了迭代贝尔曼校准（Iterated Bellman Calibration），这是一种模型无关的方法，旨在改善无限时域马尔可夫决策过程中的离线价值预测。通过确保具有相似预测收益的状态与贝尔曼方程的结果相一致，该方法利用了直方图和单调校准技术。该方法采用了一种双重稳健的伪结果来处理离线数据，提供了一种适用于任何价值估计器的一维拟合价值迭代。值得注意的是，该方法在不需要贝尔曼完备性或可实现性的情况下，提供了有限样本保证，从而增强了预测的可靠性。

引入离线强化学习校准的新方法

研究人员揭示了迭代贝尔曼校准，这是一种新颖的后处理程序，旨在增强无限时间范围马尔可夫决策过程中的离策略价值预测。这种与模型无关的方法解决了预测长期回报的校准问题，确保具有相似预测的状态与目标策略下的贝尔曼方程对齐。

与这一新校准方法相关的分析提供了有限样本保证，确保在相对较弱的假设下的校准精度和预测性能。值得注意的是，该方法不需要贝尔曼完备性或可实现性，这在强化学习的背景下通常是具有挑战性的条件。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

离线强化学习中的V学习的Bellman校准

引入离线强化学习校准的新方法

相关主题：

分享此文章