STEM: Масштабирование трансформеров с помощью модулей встраивания

Изображение создано Gemini AI
STEM (Масштабирование трансформеров с модулями встраивания) представляет собой новый подход к тонкой разреженности в нейронных сетях, заменяя традиционные сети прямого распространения на статические встраивания с индексированием токенов. Это снижает сложность выполнения и повышает стабильность обучения, что позволяет эффективно разгружать процессоры. STEM достигает повышения точности на 4% в задачах, требующих значительных знаний, одновременно уменьшая доступ к параметрам и количество операций с плавающей точкой (FLOPs) на токен примерно на одну треть. Архитектура STEM способствует лучшей интерпретируемости и возможностям редактирования знаний без дополнительных вычислений, особенно улучшая производительность в сценариях с длинными контекстами и на разных масштабах моделей.
STEM: Новый подход к масштабированию трансформеров
Представлен новый метод под названием STEM (Масштабирование трансформеров с модулями эмбеддинга), который направлен на повышение производительности и эффективности моделей трансформеров. Реализуя статический, индексированный по токенам подход, заменяющий проекцию сети прямого распространения (FFN) с помощью локального поиска эмбеддинга, STEM обеспечивает улучшенную стабильность и эффективность во время обучения.
Эмпирическая производительность и улучшения
Эмпирические результаты показывают, что STEM сохраняет стабильность обучения даже в условиях экстремальной разреженности. Модель демонстрирует улучшенные результаты на downstream задачах по сравнению с плотными базовыми моделями, значительно снижая количество FLOPs и доступов к параметрам на токен, устраняя примерно одну треть параметров FFN. Это сокращение способствует более эффективному использованию ресурсов.
Увеличение точности на разных масштабах моделей
На моделях с параметрами 350M и 1B STEM достигает увеличения точности в диапазоне от 3% до 4% в целом. Модель показывает особенно заметные улучшения на бенчмарках, требующих знаний и рассуждений, включая ARC-Challenge, OpenBookQA, GSM8K и MMLU.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.10639v1
Все права и авторство принадлежат первоначальному издателю.