AI
Notícias IA

CoPE-VideoLM: Primitivas de Codec para Modelos de Linguagem de Vídeo Eficientes

Source:arXiv
Autor original:Sayan Deb Sarkar et al.
CoPE-VideoLM: Primitivas de Codec para Modelos de Linguagem de Vídeo Eficientes

Imagem gerada por Gemini AI

Uma nova abordagem para Modelos de Linguagem de Vídeo (VideoLMs) utiliza primitivas de codec de vídeo, como vetores de movimento, para aprimorar a compreensão de vídeos por inteligência artificial, ao mesmo tempo em que minimiza os custos computacionais. Esse método reduz significativamente o tempo até o primeiro token em até 86% e a utilização de tokens em 93%, mantendo ou superando o desempenho em 14 métricas relacionadas à compreensão de vídeo, incluindo resposta a perguntas e raciocínio temporal.

CoPE-VideoLM: Um Avanço na Eficiência de Modelos de Linguagem para Vídeo

Uma nova abordagem em modelos de linguagem para vídeo, o CoPE-VideoLM, aprimora a compreensão de conteúdo de vídeo por sistemas de IA ao utilizar primitivas de codecs de vídeo. Este método aborda os desafios enfrentados pelos atuais Modelos de Linguagem para Vídeo (VideoLMs), como altos custos computacionais e cobertura temporal limitada.

A análise de vídeo tradicional frequentemente depende da amostragem de quadros-chave, o que pode deixar de lado eventos e detalhes críticos. O CoPE-VideoLM mitiga esses problemas ao utilizar vetores de movimento e resíduos de codecs de vídeo, permitindo uma representação eficiente sem a necessidade de codificação de imagem completa para a maioria dos quadros.

Codificadores Inovadores Baseados em Transformer

O framework CoPE-VideoLM introduz codificadores leves baseados em transformer que agregam primitivas de codec. Essa abordagem melhora a eficiência na afinação de ponta a ponta, alcançando uma redução no tempo até o primeiro token de até 86% e reduzindo o uso de tokens em até 93% em comparação com VideoLMs padrão.

Desempenho em Diversos Benchmarks

O CoPE-VideoLM mantém ou supera o desempenho em 14 diversos benchmarks de compreensão de vídeo, incluindo tarefas relacionadas a perguntas gerais, raciocínio temporal e compreensão de cenas espaciais. Isso demonstra a versatilidade da abordagem CoPE-VideoLM, mantendo o desempenho em várias tarefas de análise de vídeo.

Tópicos relacionados:

CoPE-VideoLMModelos de Linguagem de Vídeoprimitivas de codeccodificadores levesdesempenho em benchmarks

📰 Fonte original: https://arxiv.org/abs/2602.13191v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo