Bellman-Kalibrierung für V-Lernen im Offline-Verstärkungslernen

•

Originalautor:Lars van der Laan et al.

•

29. Dezember 2025

Bellman-Kalibrierung für V-Lernen im Offline-Verstärkungslernen

Von Gemini AI generiertes Bild

Der Artikel stellt die Iterierte Bellman-Kalibrierung vor, eine modellunabhängige Methode zur Verbesserung von Off-Policy-Wertvorhersagen in unendlichen Horizont-Markov-Entscheidungsprozessen. Durch die Gewährleistung, dass Zustände mit ähnlichen vorhergesagten Erträgen mit den Ergebnissen der Bellman-Gleichung übereinstimmen, nutzt sie Histogramm- und isotone Kalibrierungstechniken. Die Methode verwendet ein doppelt robustes Pseudo-Ergebnis für Off-Policy-Daten und bietet eine eindimensionale angepasste Wertiteration, die auf jeden Wertschätzer anwendbar ist. Besonders hervorzuheben ist, dass sie endliche Stichproben-Garantien bietet, ohne auf Bellman-Vollständigkeit oder Realisierbarkeit angewiesen zu sein, was die Zuverlässigkeit der Vorhersagen erhöht.

Neue Methode zur Kalibrierung von Offline-Verstärkungslernen Eingeführt

Forscher haben die Iterierte Bellman-Kalibrierung vorgestellt, ein neuartiges post-hoc Verfahren, das darauf abzielt, die Off-Policy-Wertvorhersagen in Markov-Entscheidungsprozessen mit unendlichem Horizont zu verbessern. Dieser modellunabhängige Ansatz befasst sich mit der Kalibrierung der vorhergesagten langfristigen Erträge und stellt sicher, dass Zustände mit ähnlichen Vorhersagen mit der Bellman-Gleichung unter der Zielpolitik übereinstimmen.

Die Analyse, die mit dieser neuen Kalibrierungsmethode verbunden ist, bietet endliche Stichproben-Garantien sowohl für die Kalibrierungsgenauigkeit als auch für die prognostische Leistung unter relativ schwachen Annahmen. Bemerkenswert ist, dass der Ansatz keine Bellman-Vollständigkeit oder Realisierbarkeit erfordert, die in Kontexten des verstärkenden Lernens oft herausfordernde Bedingungen darstellen.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

Bellman-Kalibrierung für V-Lernen im Offline-Verstärkungslernen

Neue Methode zur Kalibrierung von Offline-Verstärkungslernen Eingeführt

Verwandte Themen:

Artikel teilen