Entrenamiento Eficiente Rápido-Lento para Modelos de Lenguaje Multimodal de Gran Escala a través de la Poda de Tokens Visuales

•

Autor original:Dingkun Zhang et al.

•

3 de febrero de 2026

Entrenamiento Eficiente Rápido-Lento para Modelos de Lenguaje Multimodal de Gran Escala a través de la Poda de Tokens Visuales

Imagen generada por Gemini AI

Investigadores han desarrollado DualSpeed, un marco diseñado para mejorar la eficiencia del entrenamiento de Modelos de Lenguaje Multimodal de Gran Tamaño (MLLMs) al abordar las ineficiencias asociadas con el tamaño masivo de los modelos y los tokens visuales. DualSpeed utiliza un enfoque de doble modo: un modo rápido que aplica Reducción de Tokens Visuales (VTP) para disminuir la cantidad de tokens visuales, y un modo lento que entrena sobre secuencias completas para garantizar la coherencia. Este método acelera significativamente el entrenamiento—2.1 veces para LLaVA-1.5 y 4.0 veces para LLaVA-NeXT—manteniendo más del 99% de rendimiento. El código está disponible en GitHub.

Nuevo Marco Mejora la Eficiencia de Entrenamiento para Modelos de Lenguaje Grande Multimodal

Los investigadores han presentado un nuevo marco llamado DualSpeed que mejora significativamente la eficiencia de entrenamiento de los Modelos de Lenguaje Grande Multimodal (MLLMs). Este enfoque aborda las ineficiencias asociadas con el tamaño masivo de los modelos y la cantidad de tokens visuales que han obstaculizado los procesos de entrenamiento.

Los métodos actuales suelen centrarse en reducir el tamaño de los modelos o limitar los parámetros entrenables. Sin embargo, la Poda de Tokens Visuales (VTP) enfrenta desafíos cuando se aplica durante el entrenamiento, lo que lleva a una descoordinación entre los procesos de entrenamiento e inferencia.

Marco DualSpeed

El marco DualSpeed opera en un sistema de doble modo. El modo rápido integra técnicas VTP existentes para minimizar el número de tokens visuales e incluye un aislador de modo para mejorar la eficiencia del entrenamiento. El modo lento sirve como una fase de entrenamiento auxiliar donde el modelo se expone a secuencias visuales completas, asegurando la consistencia entre el entrenamiento y la inferencia. Este modo emplea auto-distincción, permitiendo que el modelo aprenda del modo rápido, que está mejor entrenado.

Mejoras en el Rendimiento

Los experimentos iniciales demuestran que el marco DualSpeed acelera los tiempos de entrenamiento sin sacrificar el rendimiento del modelo. Específicamente, el entrenamiento de LLaVA-1.5 se ha acelerado en un factor de 2.1 y el de LLaVA-NeXT en 4.0, manteniendo más del 99% de las métricas de rendimiento originales de los modelos.

Los desarrolladores e investigadores interesados en explorar este marco pueden acceder al código en GitHub: DualSpeed en GitHub.

Temas relacionados:

Modelos de Lenguaje MultimodalPoda de Tokens Visualesentrenamiento eficienteDualSpeedLLaVA

📰 Fuente original: https://arxiv.org/abs/2602.03815v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit