CoPE-VideoLM：高效视频语言模型的编码原语

•

原作者:Sayan Deb Sarkar et al.

•

2026年2月13日

Gemini AI生成的图像

一种新的视频语言模型（VideoLMs）方法利用视频编码原语，如运动矢量，来增强人工智能对视频的理解，同时降低计算成本。这种方法将首次生成令牌的时间缩短了多达86%，令牌使用量减少了93%，在与视频理解相关的14个基准测试中，性能保持不变或有所提升，这些基准测试包括问答和时间推理等任务。

CoPE-VideoLM：视频语言模型效率的突破

一种名为CoPE-VideoLM的新方法，通过利用视频编码原语，增强了人工智能系统对视频内容的理解。这种方法解决了当前视频语言模型（VideoLMs）面临的挑战，例如高计算成本和有限的时间覆盖。

传统的视频分析通常依赖关键帧采样，这可能会忽略关键事件和细节。CoPE-VideoLM通过利用视频编码中的运动矢量和残差来缓解这些问题，使得在大多数帧中无需进行完整图像编码即可实现高效表示。

CoPE-VideoLM框架引入了轻量级的基于变压器的编码器，聚合编码原语。这种方法提高了端到端微调的效率，将首次标记的时间缩短了多达86%，并将标记使用量减少了多达93%，相较于标准的VideoLMs。

CoPE-VideoLM在14个不同的视频理解基准测试中保持或超越了表现，包括与一般问答、时间推理和空间场景理解相关的任务。这展示了CoPE-VideoLM方法的多功能性，同时在各种视频分析任务中保持了性能。