Repenser la région de confiance dans l'apprentissage par renforcement des LLM

•

Auteur original:Penghui Qi et al.

•

4 février 2026

Repenser la région de confiance dans l'apprentissage par renforcement des LLM

Image générée par Gemini AI

L'apprentissage par renforcement, et plus particulièrement l'Optimisation de Politique Proximale (PPO), joue un rôle clé dans le perfectionnement des Grands Modèles de Langage (LLMs). Cependant, le mécanisme de découpage des ratios de PPO entraîne une mauvaise gestion des mises à jour des tokens, ce qui se traduit par des inefficacités. La Divergence Proximal Policy Optimization (DPPO) proposée remplace cette approche par une estimation de divergence plus rigoureuse, utilisant des approximations Binaires et Top-K pour améliorer la stabilité et l'efficacité de l'entraînement.

Repenser les régions de confiance dans l'apprentissage par renforcement des grands modèles de langage

Des recherches récentes mettent en lumière des limites significatives de l'algorithme d'Optimisation de Politique Proximale (PPO) pour le réglage fin des Grands Modèles de Langage (LLMs) dans des cadres d'apprentissage par renforcement (RL). L'étude propose l'Optimisation de Politique Proximale par Divergence (DPPO) pour améliorer la stabilité et l'efficacité de l'entraînement des LLMs.

Le clipping du ratio de PPO basé sur la probabilité des tokens échantillonnés est inadéquat pour les LLMs avec de grands vocabulaires, conduisant à des dynamiques d'apprentissage problématiques. Les tokens à faible probabilité subissent des pénalités excessives, et les mises à jour des tokens à forte probabilité ne sont pas suffisamment contraintes, créant une instabilité dans l'entraînement.

Solution Proposée : Optimisation de Politique Proximale par Divergence

La DPPO remplace l'approche heuristique de clipping par des contraintes dérivées d'estimations directes de la divergence de politique, telles que la Variation Totale ou la divergence de Kullback-Leibler (KL), visant à fournir une représentation plus précise des mises à jour de politique.

La DPPO intègre également des approximations efficaces Binary et Top-K pour capturer des informations essentielles sur la divergence tout en maintenant une faible surcharge computationnelle, garantissant ainsi sa praticité pour des applications à grande échelle.

Évaluations Empiriques

Les évaluations empiriques démontrent que la DPPO surpasse systématiquement les méthodes existantes en termes de stabilité et d'efficacité de l'entraînement, renforçant considérablement la robustesse des applications d'apprentissage par renforcement pour les LLMs.

Sujets connexes :

apprentissage par renforcementmodèles de langage de grande tailleoptimisation de politique proximaledivergence de politiqueDPPO

📰 Source originale : https://arxiv.org/abs/2602.04879v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit