Калибровка Беллмана для V-обучения в оффлайн обучении с подкреплением

Изображение создано Gemini AI
Статья представляет Итерированную Калибровку Беллмана, модельно-агностический метод, направленный на улучшение оценок ценности в условиях офф-политики для марковских процессов принятия решений с бесконечным горизонтом. Обеспечивая соответствие состояний с похожими предсказанными доходами результатам уравнения Беллмана, метод использует техники гистограммной и изотонической калибровки. В своей работе он применяет двойной робустный псевдо-результат для данных офф-политики, предлагая одномерную итерацию оцененной ценности, которая может использоваться с любым оценивателем ценности. Важным аспектом является то, что метод предоставляет гарантии конечных выборок, не требуя полноты или реализуемости Беллмана, что повышает надежность предсказаний.
Представлен новый метод калибровки оффлайн обучения с подкреплением
Исследователи представили Итеративную калибровку Беллмана, новый пост-хок метод, направленный на улучшение предсказаний значений вне политики в марковских процессах принятия решений с бесконечным горизонтом. Этот независимый от модели подход решает проблему калибровки предсказанных долгосрочных доходов, обеспечивая соответствие состояний с аналогичными предсказаниями уравнению Беллмана в рамках целевой политики.
Анализ, связанный с этим новым методом калибровки, предлагает гарантии конечной выборки как для точности калибровки, так и для предсказательной производительности при относительно слабых предположениях. Примечательно, что этот подход не требует полноты Беллмана или реализуемости, которые часто являются сложными условиями в контексте обучения с подкреплением.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2512.23694v1
Все права и авторство принадлежат первоначальному издателю.