Entraînement rapide-lent efficace pour des modèles de langage multimodaux de grande taille via l'élagage des tokens visuels

•

Auteur original:Dingkun Zhang et al.

•

3 février 2026

Entraînement rapide-lent efficace pour des modèles de langage multimodaux de grande taille via l'élagage des tokens visuels

Image générée par Gemini AI

Des chercheurs ont développé DualSpeed, un cadre visant à améliorer l'efficacité de l'entraînement des modèles de langage multimodaux de grande taille (MLLM) en s'attaquant aux inefficacités liées à la taille massive des modèles et aux jetons visuels. DualSpeed adopte une approche en deux modes : un mode rapide qui utilise l'élagage de jetons visuels (Visual Token Pruning, VTP) pour réduire le nombre de jetons visuels, et un mode lent qui s'entraîne sur des séquences complètes afin d'assurer la cohérence. Cette méthode permet d'accélérer considérablement l'entraînement—2,1 fois pour LLaVA-1.5 et 4,0 fois pour LLaVA-NeXT—tout en maintenant plus de 99 % de performance. Le code est disponible sur GitHub.

Nouveau Cadre Améliore l'Efficacité de Formation des Modèles de Langage Multimodaux de Grande Taille

Des chercheurs ont dévoilé un nouveau cadre appelé DualSpeed qui améliore considérablement l'efficacité de formation des Modèles de Langage Multimodaux de Grande Taille (MLLMs). Cette approche s'attaque aux inefficacités associées aux tailles de modèle massives et au nombre de jetons visuels qui ont entravé les processus de formation.

Les méthodes actuelles se concentrent généralement sur la réduction des tailles de modèle ou la limitation des paramètres entraînables. Cependant, l'Élagage de Jetons Visuels (VTP) rencontre des défis lorsqu'il est appliqué durant la formation, entraînant un décalage entre les processus de formation et d'inférence.

Cadre DualSpeed

Le cadre DualSpeed fonctionne sur un système à double mode. Le mode rapide intègre des techniques VTP existantes pour minimiser le nombre de jetons visuels et inclut un isolateur de mode pour améliorer l'efficacité de formation. Le mode lent sert de phase de formation auxiliaire où le modèle est exposé à des séquences visuelles complètes, garantissant la cohérence entre la formation et l'inférence. Ce mode utilise l'auto-distillation, permettant au modèle d'apprendre du mode rapide mieux entraîné.

Gains de Performance

Les expériences initiales démontrent que le cadre DualSpeed accélère les temps de formation sans compromettre les performances du modèle. En particulier, la formation de LLaVA-1.5 a été accélérée d'un facteur de 2,1 et celle de LLaVA-NeXT de 4,0, tout en maintenant plus de 99 % des métriques de performance originales des modèles.

Les développeurs et chercheurs intéressés par l'exploration de ce cadre peuvent accéder au code sur GitHub : DualSpeed sur GitHub.

Sujets connexes :

Modèles de Langage MultimodauxÉlagage des Tokens VisuelsDualSpeedefficacité d'entraînementperformances non dégradées

📰 Source originale : https://arxiv.org/abs/2602.03815v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit