AI
AI新闻

通过视觉令牌修剪实现多模态大语言模型的快速高效训练

Source:arXiv
原作者:Dingkun Zhang et al.
通过视觉令牌修剪实现多模态大语言模型的快速高效训练

Gemini AI生成的图像

研究人员开发了DualSpeed框架,以提高多模态大型语言模型(MLLMs)的训练效率,解决与庞大模型规模和视觉标记相关的低效问题。DualSpeed采用双模式方法:快速模式利用视觉标记裁剪(VTP)来减少视觉标记,而慢速模式则在完整序列上进行训练,以保持一致性。该方法显著加速了训练过程——LLaVA-1.5的速度提高了2.1倍,而LLaVA-NeXT则提高了4.0倍,同时保持超过99%的性能。相关代码已在GitHub上发布。

新框架提升多模态大语言模型的训练效率

研究人员揭示了一种名为DualSpeed的新框架,显著提高了多模态大语言模型(MLLMs)的训练效率。该方法解决了与庞大模型规模和视觉标记数量相关的低效问题,这些问题一直阻碍着训练过程。

目前的方法通常侧重于减少模型规模或限制可训练参数。然而,视觉标记修剪(VTP)在训练过程中应用时面临挑战,导致训练与推理过程之间的不匹配。

DualSpeed框架

DualSpeed框架采用双模式系统。快模式集成了现有的VTP技术,以最小化视觉标记的数量,并包括一个模式隔离器以提高训练效率。慢模式作为辅助训练阶段,使模型接触完整的视觉序列,确保训练与推理之间的一致性。该模式采用自蒸馏,允许模型从训练更好的快模式中学习。

性能提升

初步实验表明,DualSpeed框架加快了训练时间,而没有牺牲模型性能。具体而言,LLaVA-1.5的训练速度提高了2.1倍,LLaVA-NeXT提高了4.0倍,同时保持了超过99%的模型原始性能指标。

有兴趣探索该框架的开发者和研究人员可以在GitHub上访问代码:GitHub上的DualSpeed

相关主题:

多模态大型语言模型视觉 Token 剪枝训练效率DualSpeed快慢模式

📰 原始来源: https://arxiv.org/abs/2602.03815v1

所有权利和署名均属于原出版商。

分享此文章