AI
KI-Nachrichten

Bellman-Kalibrierung für V-Lernen im Offline-Verstärkungslernen

Source:arXiv
Originalautor:Lars van der Laan et al.
Bellman-Kalibrierung für V-Lernen im Offline-Verstärkungslernen

Von Gemini AI generiertes Bild

Der Artikel stellt die Iterierte Bellman-Kalibrierung vor, eine modellunabhängige Methode zur Verbesserung von Off-Policy-Wertvorhersagen in unendlichen Horizont-Markov-Entscheidungsprozessen. Durch die Gewährleistung, dass Zustände mit ähnlichen vorhergesagten Erträgen mit den Ergebnissen der Bellman-Gleichung übereinstimmen, nutzt sie Histogramm- und isotone Kalibrierungstechniken. Die Methode verwendet ein doppelt robustes Pseudo-Ergebnis für Off-Policy-Daten und bietet eine eindimensionale angepasste Wertiteration, die auf jeden Wertschätzer anwendbar ist. Besonders hervorzuheben ist, dass sie endliche Stichproben-Garantien bietet, ohne auf Bellman-Vollständigkeit oder Realisierbarkeit angewiesen zu sein, was die Zuverlässigkeit der Vorhersagen erhöht.

Neue Methode zur Kalibrierung von Offline-Verstärkungslernen Eingeführt

Forscher haben die Iterierte Bellman-Kalibrierung vorgestellt, ein neuartiges post-hoc Verfahren, das darauf abzielt, die Off-Policy-Wertvorhersagen in Markov-Entscheidungsprozessen mit unendlichem Horizont zu verbessern. Dieser modellunabhängige Ansatz befasst sich mit der Kalibrierung der vorhergesagten langfristigen Erträge und stellt sicher, dass Zustände mit ähnlichen Vorhersagen mit der Bellman-Gleichung unter der Zielpolitik übereinstimmen.

Die Analyse, die mit dieser neuen Kalibrierungsmethode verbunden ist, bietet endliche Stichproben-Garantien sowohl für die Kalibrierungsgenauigkeit als auch für die prognostische Leistung unter relativ schwachen Annahmen. Bemerkenswert ist, dass der Ansatz keine Bellman-Vollständigkeit oder Realisierbarkeit erfordert, die in Kontexten des verstärkenden Lernens oft herausfordernde Bedingungen darstellen.

Verwandte Themen:

Bellman-KalibrierungV-LernenOffline-VerstärkungslernenOff-Policy-WertvorhersagenHistogramm- und isotone Kalibrierung

📰 Originalquelle: https://arxiv.org/abs/2512.23694v1

Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.

Artikel teilen