Repensando la Región de Confianza en el Aprendizaje por Refuerzo de Modelos de Lenguaje Grande

Imagen generada por Gemini AI
El aprendizaje por refuerzo, en particular la Optimización Proximal de Políticas (PPO), es fundamental para el ajuste fino de los Modelos de Lenguaje de Gran Tamaño (LLMs). Sin embargo, el mecanismo de recorte de ratios de PPO malmaneja las actualizaciones de tokens, lo que provoca ineficiencias. La propuesta de la Optimización Proximal de Políticas por Divergencia (DPPO) sustituye este método por una estimación de divergencia fundamentada, utilizando aproximaciones Binarias y Top-K para mejorar la estabilidad y la eficiencia en el entrenamiento.
Repensando las Regiones de Confianza en el Aprendizaje por Refuerzo de Modelos de Lenguaje de Gran Escala
Investigaciones recientes destacan limitaciones significativas en el algoritmo de Optimización Proximal de Políticas (PPO) para el ajuste fino de Modelos de Lenguaje de Gran Escala (LLMs) en marcos de aprendizaje por refuerzo (RL). El estudio propone la Optimización Proximal de Políticas por Divergencia (DPPO) para mejorar la estabilidad y la eficiencia del entrenamiento de LLMs.
El recorte de la razón de PPO basado en la probabilidad de los tokens muestreados es inadecuado para LLMs con grandes vocabularios, lo que lleva a dinámicas de aprendizaje problemáticas. Los tokens de baja probabilidad enfrentan penalizaciones excesivas, y las actualizaciones a los tokens de alta probabilidad están insuficientemente restringidas, creando inestabilidad en el entrenamiento.
Solución Propuesta: Optimización Proximal de Políticas por Divergencia
DPPO reemplaza el enfoque heurístico de recorte por restricciones derivadas de estimaciones directas de la divergencia de políticas, como la Variación Total o la divergencia de Kullback-Leibler (KL), con el objetivo de proporcionar una representación más precisa de las actualizaciones de políticas.
DPPO también incorpora aproximaciones eficientes de Binario y Top-K para capturar información esencial sobre la divergencia mientras mantiene un bajo costo computacional, asegurando la viabilidad para aplicaciones a gran escala.
Evaluaciones Empíricas
Las evaluaciones empíricas demuestran que DPPO supera consistentemente a los métodos existentes en estabilidad y eficiencia de entrenamiento, mejorando significativamente la robustez de las aplicaciones de aprendizaje por refuerzo para LLMs.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2602.04879v1
Todos los derechos y créditos pertenecen al editor original.