Neudefinition des Vertrauensbereichs im Reinforcement Learning für große Sprachmodelle (LLMs)

•

Originalautor:Penghui Qi et al.

•

4. Februar 2026

Neudefinition des Vertrauensbereichs im Reinforcement Learning für große Sprachmodelle (LLMs)

Von Gemini AI generiertes Bild

Verstärkendes Lernen, insbesondere die Proximal Policy Optimization (PPO), spielt eine entscheidende Rolle bei der Feinabstimmung großer Sprachmodelle (LLMs). Allerdings führt der Mechanismus der Ratioschneidung in PPO zu einem ineffizienten Umgang mit Token-Updates. Die vorgeschlagene Divergence Proximal Policy Optimization (DPPO) ersetzt diesen Ansatz durch eine fundierte Schätzung der Divergenz und verwendet dabei Binary- sowie Top-K-Approximationen, um Stabilität und Effizienz im Training zu verbessern.

Das Überdenken von Vertrauensregionen im Reinforcement Learning von großen Sprachmodellen

Aktuelle Forschungen heben erhebliche Einschränkungen des Proximal Policy Optimization (PPO) Algorithmus beim Feintuning großer Sprachmodelle (LLMs) in Reinforcement Learning (RL) Rahmenwerken hervor. Die Studie schlägt Divergence Proximal Policy Optimization (DPPO) vor, um die Trainingsstabilität und Effizienz für LLMs zu verbessern.

Die Verhältnis-Klippung von PPO basierend auf der Wahrscheinlichkeit der ausgewählten Tokens ist für LLMs mit großen Wortschatz unzureichend, was zu problematischen Lern-Dynamiken führt. Tokens mit niedriger Wahrscheinlichkeit erhalten übermäßige Strafen, während Updates für Tokens mit hoher Wahrscheinlichkeit nicht ausreichend eingeschränkt werden, was zu Instabilität im Training führt.

Vorgeschlagene Lösung: Divergence Proximal Policy Optimization

DPPO ersetzt den heuristischen Klippungsansatz durch Einschränkungen, die aus direkten Schätzungen der Policy-Divergenz abgeleitet sind, wie z.B. der Total Variation oder der Kullback-Leibler (KL) Divergenz, mit dem Ziel, eine genauere Darstellung der Policy-Updates zu bieten.

DPPO integriert außerdem effiziente Binary- und Top-K-Approximationen, um wesentliche Divergenzinformationen zu erfassen, während es die Rechenkosten niedrig hält, was die Praktikabilität für großangelegte Anwendungen gewährleistet.

Empirische Bewertungen

Empirische Bewertungen zeigen, dass DPPO bestehende Methoden in Bezug auf Trainingsstabilität und Effizienz konstant übertrifft, was die Robustheit von Reinforcement Learning-Anwendungen für LLMs erheblich verbessert.

Artikel teilen

Twitter Facebook LinkedIn WhatsApp Reddit

Neudefinition des Vertrauensbereichs im Reinforcement Learning für große Sprachmodelle (LLMs)

Das Überdenken von Vertrauensregionen im Reinforcement Learning von großen Sprachmodellen

Vorgeschlagene Lösung: Divergence Proximal Policy Optimization

Empirische Bewertungen

Verwandte Themen:

Artikel teilen