Предсказание следующей концепции в дискретном скрытом пространстве способствует улучшению языковых моделей

Изображение создано Gemini AI
Исследователи представили новый метод предварительного обучения языковых моделей под названием Next Concept Prediction (NCP), реализованный в модели ConceptLM. NCP предсказывает дискретные концепты на основе нескольких токенов, что усложняет задачу обучения. ConceptLM, обученная на объемах данных от 70 миллионов до 1.5 миллиарда параметров, продемонстрировала улучшенные результаты на 13 бенчмарках по сравнению с традиционными методами. Кроме того, NCP усиливает процесс непрерывного предварительного обучения, что указывает на его потенциал в разработке более надежных языковых моделей.
Новая концепция предсказания улучшает производительность языковой модели
Была представлена новая парадигма генеративного предварительного обучения, называемая Предсказание следующей концепции (NCP), для повышения возможностей языковых моделей. Модель, названная ConceptLM, использует векторное квантование для создания словаря концепций и интегрирует как NCP, так и Предсказание следующего токена (NTP), чтобы информировать процесс генерации токенов. Она была обучена с нуля с размерами от 70 миллионов до 1,5 миллиарда параметров, используя до 300 миллиардов точек данных.
Увеличение производительности по тестовым наборам
Результаты из 13 оценочных тестов демонстрируют, что NCP последовательно превосходит традиционные модели на уровне токенов. Это предполагает, что более сложная задача предварительного обучения через предсказание концепций значительно усиливает возможности языковой модели. Кроме того, эксперименты по непрерывному предварительному обучению на модели Llama с 8 миллиардами параметров показывают, что NCP может улучшить модели, изначально обученные с использованием NTP.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2602.08984v1
Все права и авторство принадлежат первоначальному издателю.