Калибровка Беллмана для V-обучения в оффлайн обучении с подкреплением

•

Оригинальный автор:Lars van der Laan et al.

•

29 декабря 2025 г.

Калибровка Беллмана для V-обучения в оффлайн обучении с подкреплением

Изображение создано Gemini AI

Статья представляет Итерированную Калибровку Беллмана, модельно-агностический метод, направленный на улучшение оценок ценности в условиях офф-политики для марковских процессов принятия решений с бесконечным горизонтом. Обеспечивая соответствие состояний с похожими предсказанными доходами результатам уравнения Беллмана, метод использует техники гистограммной и изотонической калибровки. В своей работе он применяет двойной робустный псевдо-результат для данных офф-политики, предлагая одномерную итерацию оцененной ценности, которая может использоваться с любым оценивателем ценности. Важным аспектом является то, что метод предоставляет гарантии конечных выборок, не требуя полноты или реализуемости Беллмана, что повышает надежность предсказаний.

Представлен новый метод калибровки оффлайн обучения с подкреплением

Исследователи представили Итеративную калибровку Беллмана, новый пост-хок метод, направленный на улучшение предсказаний значений вне политики в марковских процессах принятия решений с бесконечным горизонтом. Этот независимый от модели подход решает проблему калибровки предсказанных долгосрочных доходов, обеспечивая соответствие состояний с аналогичными предсказаниями уравнению Беллмана в рамках целевой политики.

Анализ, связанный с этим новым методом калибровки, предлагает гарантии конечной выборки как для точности калибровки, так и для предсказательной производительности при относительно слабых предположениях. Примечательно, что этот подход не требует полноты Беллмана или реализуемости, которые часто являются сложными условиями в контексте обучения с подкреплением.

Связанные темы:

Калибровка БеллманаV-обучениеоффлайновое обучениеобучение с подкреплениемпредсказания модели

📰 Первоисточник: https://arxiv.org/abs/2512.23694v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit