Переосмысление области доверия в обучении с подкреплением для крупных языковых моделей

•

Оригинальный автор:Penghui Qi et al.

•

4 февраля 2026 г.

Переосмысление области доверия в обучении с подкреплением для крупных языковых моделей

Изображение создано Gemini AI

Обучение с подкреплением, в частности метод Проксимальной Политической Оптимизации (PPO), играет ключевую роль в тонкой настройке больших языковых моделей (LLM). Однако механизм отсечения соотношений в PPO неправильно управляет обновлениями токенов, что приводит к неэффективности. Предлагаемая Divergence Proximal Policy Optimization (DPPO) заменяет этот механизм на основанную на принципах оценку дивергенции, используя бинарные и Top-K апроксимации для повышения стабильности и эффективности в процессе обучения.

Переосмысление регионов доверия в обучении с подкреплением больших языковых моделей

Недавние исследования подчеркивают значительные ограничения алгоритма оптимизации проксимальной политики (PPO) для дообучения больших языковых моделей (LLMs) в рамках обучения с подкреплением (RL). В исследовании предлагается метод оптимизации проксимальной политики с дивергенцией (DPPO), чтобы улучшить стабильность и эффективность обучения для LLMs.

Ограничение отношения PPO, основанное на вероятности выборки токенов, оказывается недостаточным для LLM с большими словарями, что приводит к проблемным динамикам обучения. Токены с низкой вероятностью сталкиваются с чрезмерными штрафами, а обновления токенов с высокой вероятностью недостаточно ограничены, что создает нестабильность в процессе обучения.

Предлагаемое решение: оптимизация проксимальной политики с дивергенцией

DPPO заменяет эвристический подход к клиппированию ограничениями, полученными из прямых оценок дивергенции политики, таких как полное отклонение или дивергенция Кульбака-Лейблера (KL), с целью более точного представления обновлений политики.

DPPO также включает эффективные бинарные и Top-K аппроксимации для захвата важной информации о дивергенции при поддержании низких вычислительных затрат, что обеспечивает практичность для масштабных приложений.

Эмпирические оценки

Эмпирические оценки показывают, что DPPO последовательно превосходит существующие методы по стабильности и эффективности обучения, значительно повышая надежность приложений обучения с подкреплением для LLMs.

Связанные темы:

обучение с подкреплениембольшие языковые моделиоптимизация проксимальной политикиотклонение политикистабильность и эффективность обучения

📰 Первоисточник: https://arxiv.org/abs/2602.04879v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit