Расширение возможностей обучения с подкреплением с помощью текстовой обратной связи

Изображение создано Gemini AI
Недавнее исследование представляет метод RL from Text Feedback (RLTF), который использует текстовые отзывы для улучшения больших языковых моделей после их обучения. В отличие от традиционных подходов, RLTF применяет многоходовое обучение с подкреплением, что позволяет моделям усваивать обратную связь без необходимости в обширных демонстрациях. Были протестированы две техники — самоотдача и моделирование обратной связи — на различных задачах, и они последовательным образом превзошли существующие базовые модели, что свидетельствует о том, что текстовые отзывы могут значительно улучшить эффективность работы моделей.
Расширение возможностей обучения с подкреплением с помощью текстовой обратной связи
Недавние достижения в области обучения с подкреплением (RL) для крупных языковых моделей (LLM) продемонстрировали новый подход, использующий текстовую обратную связь в качестве промежуточного сигнала для повышения эффективности обучения моделей. Современные стратегии RL часто полагаются на минимальную обратную связь, обычно ограничиваясь бинарными вознаграждениями. Введение текстовой обратной связи стремится устранить этот разрыв, предлагая более информативный, но в то же время экономически эффективный вариант.
Представление RL с текстовой обратной связью (RLTF)
Предлагаемая структура, RL с текстовой обратной связью (RLTF), формализует многоходовую настройку обучения RL, где текстовая обратная связь используется в процессе обучения, но недоступна на этапе вывода. Модели должны интернализировать обратную связь, чтобы улучшить свои показатели в одноходовых сценариях во время тестирования.
Предложены два инновационных метода:
- Самодистилляция (RLTF-SD): Этот подход обучает политику согласовываться с ее собственными вторичными выходами, обусловленными обратной связью, что способствует консистентности ответов модели.
- Моделирование обратной связи (RLTF-FM): Этот метод направлен на прогнозирование обратной связи как вспомогательной цели, дополнительно направляя модель в процессе обучения.
Теоретические и эмпирические оценки
Исследователи провели тщательный теоретический анализ обоих методов RLTF, а затем провели эмпирические оценки по различным задачам, включая логические головоломки и упражнения по креативному письму. Результаты последовательно демонстрировали, что оба метода RLTF значительно превосходят сильные базовые модели по этим тестам.
Полученные данные подчеркивают потенциал интеграции текстовой обратной связи как богатого источника супервизии в RL, предполагая, что этот подход может привести к более надежным и адаптивным LLM.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.02482v1
Все права и авторство принадлежат первоначальному издателю.