通过视觉令牌修剪实现多模态大语言模型的快速高效训练

•

原作者:Dingkun Zhang et al.

•

2026年2月3日

Gemini AI生成的图像

研究人员开发了DualSpeed框架，以提高多模态大型语言模型（MLLMs）的训练效率，解决与庞大模型规模和视觉标记相关的低效问题。DualSpeed采用双模式方法：快速模式利用视觉标记裁剪（VTP）来减少视觉标记，而慢速模式则在完整序列上进行训练，以保持一致性。该方法显著加速了训练过程——LLaVA-1.5的速度提高了2.1倍，而LLaVA-NeXT则提高了4.0倍，同时保持超过99%的性能。相关代码已在GitHub上发布。

新框架提升多模态大语言模型的训练效率

研究人员揭示了一种名为DualSpeed的新框架，显著提高了多模态大语言模型（MLLMs）的训练效率。该方法解决了与庞大模型规模和视觉标记数量相关的低效问题，这些问题一直阻碍着训练过程。

目前的方法通常侧重于减少模型规模或限制可训练参数。然而，视觉标记修剪（VTP）在训练过程中应用时面临挑战，导致训练与推理过程之间的不匹配。

DualSpeed框架

DualSpeed框架采用双模式系统。快模式集成了现有的VTP技术，以最小化视觉标记的数量，并包括一个模式隔离器以提高训练效率。慢模式作为辅助训练阶段，使模型接触完整的视觉序列，确保训练与推理之间的一致性。该模式采用自蒸馏，允许模型从训练更好的快模式中学习。

性能提升

初步实验表明，DualSpeed框架加快了训练时间，而没有牺牲模型性能。具体而言，LLaVA-1.5的训练速度提高了2.1倍，LLaVA-NeXT提高了4.0倍，同时保持了超过99%的模型原始性能指标。

有兴趣探索该框架的开发者和研究人员可以在GitHub上访问代码：GitHub上的DualSpeed。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

通过视觉令牌修剪实现多模态大语言模型的快速高效训练

新框架提升多模态大语言模型的训练效率

DualSpeed框架

性能提升

相关主题：

分享此文章