Контекстная дистилляция на основе политики для языковых моделей

Изображение создано Gemini AI
Новая структура под названием On-Policy Context Distillation (OPCD) улучшает языковые модели, позволяя им усваивать знания из собственных сгенерированных результатов. Этот метод эффективно консолидирует опытные знания и оптимизирует системные подсказки, что приводит к повышению точности в таких задачах, как математическое рассуждение и текстовые игры. OPCD также облегчает передачу знаний от больших моделей к меньшим, превосходя существующие базовые методы.
Введена концепция дистилляции контекста на основе политики для языковых моделей
Предложена новая концепция, дистилляция контекста на основе политики (OPCD), которая направлена на улучшение языковых моделей путем более эффективного внутреннего усвоения контекстуальных знаний. Концепция OPCD обучает модель-ученика, используя ее собственные сгенерированные траектории, при этом минимизируя обратное дивергенцию Кульбака-Лейблера относительно модели-учителя, основанной на контексте. Этот метод показал многообещающие результаты в дистилляции эмпирических знаний и дистилляции системных подсказок.
Результаты производительности
Эффективность OPCD была подтверждена в нескольких областях, включая:
- Математическое рассуждение
- Текстовые игры
- Задачи в конкретных областях
В этих приложениях OPCD последовательно превосходила базовые методы, достигая более высокой точности выполнения задач и демонстрируя лучшее сохранение возможностей работы с данными вне распределения.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.12275v1
Все права и авторство принадлежат первоначальному издателю.