CoPE-VideoLM: Primitivi Codec per Modelli di Linguaggio Video Efficienti

•

Autore originale:Sayan Deb Sarkar et al.

•

13 febbraio 2026

CoPE-VideoLM: Primitivi Codec per Modelli di Linguaggio Video Efficienti

Immagine generata da Gemini AI

Un nuovo approccio ai Modelli Linguistici per i Video (VideoLMs) sfrutta le primitive dei codec video, come i vettori di movimento, per migliorare la comprensione video da parte dell'IA, riducendo nel contempo i costi computazionali. Questo metodo consente di ridurre significativamente il tempo necessario per generare il primo token fino all'86% e l'uso dei token fino al 93%, mantenendo o superando le prestazioni in 14 benchmark relativi alla comprensione video, tra cui risposte a domande e ragionamento temporale.

CoPE-VideoLM: Una Rivoluzione nell'Efficienza dei Modelli Linguistici per Video

Un nuovo approccio nei modelli linguistici per video, CoPE-VideoLM, migliora la comprensione del contenuto video da parte dei sistemi AI utilizzando primitive dei codec video. Questo metodo affronta le sfide che i modelli linguistici per video attuali (VideoLM) devono affrontare, come i costi computazionali elevati e la copertura temporale limitata.

L'analisi video tradizionale si basa spesso sul campionamento di fotogrammi chiave, che può trascurare eventi e dettagli critici. CoPE-VideoLM mitiga questi problemi utilizzando vettori di movimento e residui dai codec video, consentendo una rappresentazione efficiente senza la necessità di codifica dell'immagine intera per la maggior parte dei fotogrammi.

Encoder Innovativi Basati su Transformer

Il framework CoPE-VideoLM introduce encoder leggeri basati su transformer che aggregano le primitive dei codec. Questo approccio migliora l'efficienza nel fine-tuning end-to-end, ottenendo una riduzione del tempo per il primo token fino a 86% e riducendo l'uso dei token fino a 93% rispetto ai VideoLM standard.

Prestazioni su Diversi Benchmark

CoPE-VideoLM mantiene o supera le prestazioni su 14 diversi benchmark di comprensione video, inclusi compiti relativi a domande generali, ragionamento temporale e comprensione spaziale delle scene. Questo dimostra la versatilità dell'approccio CoPE-VideoLM mantenendo prestazioni elevate in vari compiti di analisi video.

Argomenti correlati:

CoPE-VideoLMmodelli di linguaggio videoprimitiv i codecencoder leggeriprestazioni benchmark

📰 Fonte originale: https://arxiv.org/abs/2602.13191v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit