CoPE-VideoLM: Кодовые примитивы для эффективных языковых моделей видео

•

Оригинальный автор:Sayan Deb Sarkar et al.

•

13 февраля 2026 г.

CoPE-VideoLM: Кодовые примитивы для эффективных языковых моделей видео

Изображение создано Gemini AI

Новый подход к видеоязыковым моделям (VideoLMs) использует примитивы видеокодеков, такие как векторы движения, для улучшения понимания видео искусственным интеллектом при минимизации вычислительных затрат. Этот метод значительно сокращает время до первого токена на 86% и использование токенов на 93%, при этом сохраняет или даже превышает результаты на 14 тестах, связанных с пониманием видео, включая ответы на вопросы и временное рассуждение.

CoPE-VideoLM: Прорыв в эффективности языковых моделей для видео

Новый подход в языковых моделях для видео, CoPE-VideoLM, улучшает понимание видео-контента системами ИИ, используя примитивы видео-кодеков. Этот метод решает проблемы, с которыми сталкиваются современные языковые модели для видео (VideoLM), такие как высокие вычислительные затраты и ограниченное временное покрытие.

Традиционный анализ видео часто основывается на выборке ключевых кадров, что может приводить к упущению критически важных событий и деталей. CoPE-VideoLM смягчает эти проблемы, используя векторы движения и остатки из видео-кодеков, что позволяет эффективно представлять данные без кодирования полного изображения для большинства кадров.

Инновационные кодеры на основе трансформеров

Фреймворк CoPE-VideoLM представляет легковесные кодеры на основе трансформеров, которые агрегируют примитивы кодека. Этот подход улучшает эффективность в процессе дообучения от начала до конца, достигая сокращения времени до первого токена на 86% и снижая использование токенов на 93% по сравнению со стандартными VideoLM.

Производительность на различных бенчмарках

CoPE-VideoLM сохраняет или превосходит производительность на 14 различных бенчмарках для понимания видео, включая задачи, связанные с общими вопросами и ответами, временным рассуждением и пространственным пониманием сцен. Это демонстрирует универсальность подхода CoPE-VideoLM при сохранении производительности в различных задачах анализа видео.

Связанные темы:

CoPE-VideoLMязыковые модели видеопримитивы кодековлегкие трансформерные энкодерыпонимание видео

📰 Первоисточник: https://arxiv.org/abs/2602.13191v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit