Repensando la Región de Confianza en el Aprendizaje por Refuerzo de Modelos de Lenguaje Grande

•

Autor original:Penghui Qi et al.

•

4 de febrero de 2026

Repensando la Región de Confianza en el Aprendizaje por Refuerzo de Modelos de Lenguaje Grande

Imagen generada por Gemini AI

El aprendizaje por refuerzo, en particular la Optimización Proximal de Políticas (PPO), es fundamental para el ajuste fino de los Modelos de Lenguaje de Gran Tamaño (LLMs). Sin embargo, el mecanismo de recorte de ratios de PPO malmaneja las actualizaciones de tokens, lo que provoca ineficiencias. La propuesta de la Optimización Proximal de Políticas por Divergencia (DPPO) sustituye este método por una estimación de divergencia fundamentada, utilizando aproximaciones Binarias y Top-K para mejorar la estabilidad y la eficiencia en el entrenamiento.

Repensando las Regiones de Confianza en el Aprendizaje por Refuerzo de Modelos de Lenguaje de Gran Escala

Investigaciones recientes destacan limitaciones significativas en el algoritmo de Optimización Proximal de Políticas (PPO) para el ajuste fino de Modelos de Lenguaje de Gran Escala (LLMs) en marcos de aprendizaje por refuerzo (RL). El estudio propone la Optimización Proximal de Políticas por Divergencia (DPPO) para mejorar la estabilidad y la eficiencia del entrenamiento de LLMs.

El recorte de la razón de PPO basado en la probabilidad de los tokens muestreados es inadecuado para LLMs con grandes vocabularios, lo que lleva a dinámicas de aprendizaje problemáticas. Los tokens de baja probabilidad enfrentan penalizaciones excesivas, y las actualizaciones a los tokens de alta probabilidad están insuficientemente restringidas, creando inestabilidad en el entrenamiento.

Solución Propuesta: Optimización Proximal de Políticas por Divergencia

DPPO reemplaza el enfoque heurístico de recorte por restricciones derivadas de estimaciones directas de la divergencia de políticas, como la Variación Total o la divergencia de Kullback-Leibler (KL), con el objetivo de proporcionar una representación más precisa de las actualizaciones de políticas.

DPPO también incorpora aproximaciones eficientes de Binario y Top-K para capturar información esencial sobre la divergencia mientras mantiene un bajo costo computacional, asegurando la viabilidad para aplicaciones a gran escala.

Evaluaciones Empíricas

Las evaluaciones empíricas demuestran que DPPO supera consistentemente a los métodos existentes en estabilidad y eficiencia de entrenamiento, mejorando significativamente la robustez de las aplicaciones de aprendizaje por refuerzo para LLMs.

Temas relacionados:

Aprendizaje por refuerzoModelos de Lenguaje de Gran TamañoOptimización Proximal de PolíticasDivergenciaestabilidad y eficiencia de entrenamiento

📰 Fuente original: https://arxiv.org/abs/2602.04879v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit