Ripensare la Regione di Fiducia nell'Apprendimento per Rinforzo dei LLM

Immagine generata da Gemini AI
L'apprendimento per rinforzo, in particolare l'Ottimizzazione Prossimale della Politica (PPO), riveste un ruolo fondamentale nel perfezionamento dei Modelli di Linguaggio di Grandi Dimensioni (LLM). Tuttavia, il meccanismo di clipping del rapporto di PPO gestisce in modo inadeguato gli aggiornamenti dei token, causando inefficienze. La proposta di Ottimizzazione Prossimale della Politica per Divergenza (DPPO) sostituisce questo approccio con una stima di divergenza ben definita, utilizzando approssimazioni Binaria e Top-K per migliorare la stabilità e l'efficienza durante la fase di addestramento.
Ripensare le Zone di Fiducia nel Reinforcement Learning dei Grandi Modelli Linguistici
Ricerche recenti evidenziano significative limitazioni nell'algoritmo di Proximal Policy Optimization (PPO) per il fine-tuning dei Grandi Modelli Linguistici (LLMs) all'interno dei framework di reinforcement learning (RL). Lo studio propone il Divergence Proximal Policy Optimization (DPPO) per migliorare la stabilità e l'efficienza dell'addestramento per gli LLMs.
Il clipping del rapporto di PPO basato sulla probabilità dei token campionati è inadeguato per gli LLMs con ampi vocabolari, portando a dinamiche di apprendimento problematiche. I token a bassa probabilità subiscono penalizzazioni eccessive, e gli aggiornamenti ai token ad alta probabilità sono insufficientemente vincolati, creando instabilità nell'addestramento.
Soluzione Proposta: Divergence Proximal Policy Optimization
DPPO sostituisce l'approccio euristico del clipping con vincoli derivati da stime dirette della divergenza della policy, come la Total Variation o la divergenza di Kullback-Leibler (KL), mirando a fornire una rappresentazione più accurata degli aggiornamenti della policy.
DPPO incorpora anche approssimazioni efficienti in Binario e Top-K per catturare informazioni essenziali sulla divergenza mantenendo un basso sovraccarico computazionale, garantendo la praticità per applicazioni su larga scala.
Valutazioni Empiriche
Le valutazioni empiriche dimostrano che DPPO supera costantemente i metodi esistenti in termini di stabilità e efficienza dell'addestramento, migliorando significativamente la robustezza delle applicazioni di reinforcement learning per gli LLMs.
Argomenti correlati:
📰 Fonte originale: https://arxiv.org/abs/2602.04879v1
Tutti i diritti e i crediti appartengono all'editore originale.