Переосмысление области доверия в обучении с подкреплением для крупных языковых моделей

Изображение создано Gemini AI
Обучение с подкреплением, в частности метод Проксимальной Политической Оптимизации (PPO), играет ключевую роль в тонкой настройке больших языковых моделей (LLM). Однако механизм отсечения соотношений в PPO неправильно управляет обновлениями токенов, что приводит к неэффективности. Предлагаемая Divergence Proximal Policy Optimization (DPPO) заменяет этот механизм на основанную на принципах оценку дивергенции, используя бинарные и Top-K апроксимации для повышения стабильности и эффективности в процессе обучения.
Переосмысление регионов доверия в обучении с подкреплением больших языковых моделей
Недавние исследования подчеркивают значительные ограничения алгоритма оптимизации проксимальной политики (PPO) для дообучения больших языковых моделей (LLMs) в рамках обучения с подкреплением (RL). В исследовании предлагается метод оптимизации проксимальной политики с дивергенцией (DPPO), чтобы улучшить стабильность и эффективность обучения для LLMs.
Ограничение отношения PPO, основанное на вероятности выборки токенов, оказывается недостаточным для LLM с большими словарями, что приводит к проблемным динамикам обучения. Токены с низкой вероятностью сталкиваются с чрезмерными штрафами, а обновления токенов с высокой вероятностью недостаточно ограничены, что создает нестабильность в процессе обучения.
Предлагаемое решение: оптимизация проксимальной политики с дивергенцией
DPPO заменяет эвристический подход к клиппированию ограничениями, полученными из прямых оценок дивергенции политики, таких как полное отклонение или дивергенция Кульбака-Лейблера (KL), с целью более точного представления обновлений политики.
DPPO также включает эффективные бинарные и Top-K аппроксимации для захвата важной информации о дивергенции при поддержании низких вычислительных затрат, что обеспечивает практичность для масштабных приложений.
Эмпирические оценки
Эмпирические оценки показывают, что DPPO последовательно превосходит существующие методы по стабильности и эффективности обучения, значительно повышая надежность приложений обучения с подкреплением для LLMs.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.04879v1
Все права и авторство принадлежат первоначальному издателю.