CoPE-VideoLM:高效视频语言模型的编码原语

Gemini AI生成的图像
一种新的视频语言模型(VideoLMs)方法利用视频编码原语,如运动矢量,来增强人工智能对视频的理解,同时降低计算成本。这种方法将首次生成令牌的时间缩短了多达86%,令牌使用量减少了93%,在与视频理解相关的14个基准测试中,性能保持不变或有所提升,这些基准测试包括问答和时间推理等任务。
CoPE-VideoLM:视频语言模型效率的突破
一种名为CoPE-VideoLM的新方法,通过利用视频编码原语,增强了人工智能系统对视频内容的理解。这种方法解决了当前视频语言模型(VideoLMs)面临的挑战,例如高计算成本和有限的时间覆盖。
传统的视频分析通常依赖关键帧采样,这可能会忽略关键事件和细节。CoPE-VideoLM通过利用视频编码中的运动矢量和残差来缓解这些问题,使得在大多数帧中无需进行完整图像编码即可实现高效表示。
创新的基于变压器的编码器
CoPE-VideoLM框架引入了轻量级的基于变压器的编码器,聚合编码原语。这种方法提高了端到端微调的效率,将首次标记的时间缩短了多达86%,并将标记使用量减少了多达93%,相较于标准的VideoLMs。
在多样化基准测试中的表现
CoPE-VideoLM在14个不同的视频理解基准测试中保持或超越了表现,包括与一般问答、时间推理和空间场景理解相关的任务。这展示了CoPE-VideoLM方法的多功能性,同时在各种视频分析任务中保持了性能。
相关主题:
CoPE-VideoLM视频语言模型编解码原语关键帧计算开销
📰 原始来源: https://arxiv.org/abs/2602.13191v1
所有权利和署名均属于原出版商。