Treinamento Eficiente Rápido-Lento para Modelos de Linguagem Multimodal de Grande Escala por meio da Poda de Tokens Visuais

•

Autor original:Dingkun Zhang et al.

•

3 de fevereiro de 2026

Treinamento Eficiente Rápido-Lento para Modelos de Linguagem Multimodal de Grande Escala por meio da Poda de Tokens Visuais

Imagem gerada por Gemini AI

Pesquisadores desenvolveram o DualSpeed, uma estrutura destinada a aprimorar a eficiência de treinamento de Modelos de Linguagem Multimodais de Grande Escala (MLLMs), abordando as ineficiências relacionadas ao tamanho massivo dos modelos e aos tokens visuais. O DualSpeed adota uma abordagem em dois modos: um modo rápido que utiliza a Poda de Tokens Visuais (VTP) para reduzir a quantidade de tokens visuais, e um modo lento que treina com sequências completas para garantir consistência. Esse método acelera significativamente o treinamento—em 2,1x para o LLaVA-1.5 e 4,0x para o LLaVA-NeXT—mantendo mais de 99% de desempenho. O código está disponível no GitHub.

Novo Framework Melhora a Eficiência de Treinamento para Modelos de Linguagem Grande Multimodal

Pesquisadores revelaram um novo framework chamado DualSpeed que melhora significativamente a eficiência de treinamento dos Modelos de Linguagem Grande Multimodal (MLLMs). Esta abordagem aborda as ineficiências associadas ao tamanho massivo dos modelos e ao número de tokens visuais que têm dificultado os processos de treinamento.

Os métodos atuais geralmente se concentram em reduzir o tamanho dos modelos ou limitar os parâmetros treináveis. No entanto, a Poda de Tokens Visuais (VTP) enfrenta desafios quando aplicada durante o treinamento, levando a um descompasso entre os processos de treinamento e inferência.

Framework DualSpeed

O framework DualSpeed opera em um sistema de modo duplo. O modo rápido integra técnicas VTP existentes para minimizar o número de tokens visuais e inclui um isolador de modo para melhorar a eficiência de treinamento. O modo lento serve como uma fase de treinamento auxiliar onde o modelo é exposto a sequências visuais completas, garantindo consistência entre treinamento e inferência. Este modo emprega auto-destilação, permitindo que o modelo aprenda com o modo rápido, que está melhor treinado.

Ganho de Desempenho

Experimentos iniciais demonstram que o framework DualSpeed acelera os tempos de treinamento sem sacrificar o desempenho do modelo. Especificamente, o treinamento do LLaVA-1.5 foi acelerado em um fator de 2,1 e do LLaVA-NeXT em 4,0, mantendo mais de 99% das métricas de desempenho originais dos modelos.

Desenvolvedores e pesquisadores interessados em explorar este framework podem acessar o código no GitHub: DualSpeed no GitHub.

Tópicos relacionados:

Treinamento EficienteModelos de Linguagem MultimodalPoda de Tokens VisuaisDualSpeedAuto-destilação

📰 Fonte original: https://arxiv.org/abs/2602.03815v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit