Эффективное быстро-медленное обучение многомодальных больших языковых моделей с помощью обрезки визуальных токенов

•

Оригинальный автор:Dingkun Zhang et al.

•

3 февраля 2026 г.

Эффективное быстро-медленное обучение многомодальных больших языковых моделей с помощью обрезки визуальных токенов

Изображение создано Gemini AI

Исследователи разработали DualSpeed — фреймворк, который повышает эффективность обучения мультимодальных больших языковых моделей (MLLM) за счет устранения недостатков, связанных с огромными размерами моделей и визуальными токенами. DualSpeed использует подход с двумя режимами: быстрый режим, который применяет метод сокращения визуальных токенов (Visual Token Pruning, VTP) для уменьшения количества визуальных токенов, и медленный режим, который обучается на полных последовательностях для обеспечения согласованности. Этот метод значительно ускоряет процесс обучения — на 2,1 раза для LLaVA-1.5 и на 4,0 раза для LLaVA-NeXT — при сохранении более 99% производительности. Исходный код доступен на GitHub.

Новая структура улучшает эффективность обучения для многомодальных больших языковых моделей

Исследователи представили новую структуру под названием DualSpeed, которая значительно повышает эффективность обучения многомодальных больших языковых моделей (MLLM). Этот подход решает проблемы, связанные с огромными размерами моделей и количеством визуальных токенов, которые затрудняли процессы обучения.

Текущие методы обычно сосредоточены на уменьшении размеров моделей или ограничении обучаемых параметров. Однако Удаление визуальных токенов (VTP) сталкивается с трудностями при применении в процессе обучения, что приводит к несоответствию между процессами обучения и вывода.

Структура DualSpeed

Структура DualSpeed работает на основе двухрежимной системы. Быстрый режим интегрирует существующие техники VTP для минимизации количества визуальных токенов и включает изолятор режима для повышения эффективности обучения. Медленный режим служит вспомогательной фазой обучения, где модель подвергается полным визуальным последовательностям, обеспечивая согласованность между обучением и выводом. Этот режим использует самодистилляцию, позволяя модели учиться у лучше обученной быстрой модели.

Увеличение производительности

Первоначальные эксперименты показывают, что структура DualSpeed ускоряет время обучения без ущерба для производительности модели. В частности, обучение LLaVA-1.5 было ускорено в 2.1 раза, а LLaVA-NeXT — в 4.0 раза, при этом сохранив более 99% оригинальных показателей производительности моделей.

Разработчики и исследователи, заинтересованные в изучении этой структуры, могут получить доступ к коду на GitHub: DualSpeed на GitHub.

Связанные темы:

многомодальные большие языковые моделиобрезка визуальных токеновэффективное обучениеDualSpeedсамодистилляция

📰 Первоисточник: https://arxiv.org/abs/2602.03815v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit