Jet-RL: Обеспечение онлайнового обучения с подкреплением FP8 с использованием единого обучения и точности выполнения выработки

•

Оригинальный автор:Haocheng Xi et al.

•

20 января 2026 г.

Jet-RL: Обеспечение онлайнового обучения с подкреплением FP8 с использованием единого обучения и точности выполнения выработки

Изображение создано Gemini AI

Исследования подчеркивают неэффективность существующих пайплайнов обучения с подкреплением (RL) для крупных языковых моделей, где фазы развертывания занимают более 70% времени обучения. В одном из исследований выявлено, что распространенная стратегия BF16 + FP8 приводит к нестабильности и потере точности. В ответ на это был представлен Jet-RL, который использует унифицированную точность FP8 как для обучения, так и для развертывания. Это позволяет повысить эффективность на 41% и стабилизировать сходимость с минимальным влиянием на точность.

Jet-RL Революционизирует Обучение с Подкреплением с Помощью Унифицированного Обучения FP8

Jet-RL — это новая рамочная система, которая упрощает процесс обучения с подкреплением (RL), используя точность FP8 как для фаз обучения, так и для выполнения. Этот подход повышает вычислительную эффективность, решая проблему высокого потребления ресурсов в традиционных RL-процессах.

Текущие методологии, использующие точность BF16 для обучения и FP8 для выполнения, часто сталкиваются с нестабильностью и потерей точности во время долгосрочных выполнений. Jet-RL минимизирует численные расхождения между обучением и выводом, устраняя необходимость в калибровке между шагами.

Показатели Производительности Jet-RL

Обширные эксперименты подтверждают эффективность Jet-RL, демонстрируя:

Ускорение Выполнения: До 33% быстрее выполнение.
Ускорение Обучения: До 41% быстрее фазы обучения.
Общее Ускорение: 16% общего ускорения по сравнению с традиционным обучением BF16.

Эти улучшения достигаются при сохранении стабильной сходимости по различным задачам, с незначительным ухудшением точности, что является важным шагом вперед для разработчиков, работающих с большими языковыми моделями (LLM).

Решение Проблем Нестабильности Обучения

Исследование подчеркивает, что нестабильность в стратегии BF16 + FP8 обусловлена офф-политической природой метода обучения, что затрудняет применение RL в сложных задачах рассуждения. Применяя унифицированный подход Jet-RL, практики могут ожидать более надежный процесс обучения, что улучшит производительность LLM в реальных приложениях.

Связанные темы:

Jet-RLобучение с подкреплениемFP8квантованное обучениестабильная оптимизация

📰 Первоисточник: https://arxiv.org/abs/2601.14243v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit