CoPE-VideoLM: Primitivas de códec para modelos de lenguaje de video eficientes

Imagen generada por Gemini AI
Un nuevo enfoque para los Modelos de Lenguaje de Video (VideoLMs) aprovecha los elementos primitivos de los códecs de video, como los vectores de movimiento, para mejorar la comprensión de video por parte de la inteligencia artificial, al tiempo que se minimizan los costos computacionales. Este método reduce significativamente el tiempo hasta el primer token en un 86% y el uso de tokens en un 93%, manteniendo o superando el rendimiento en 14 métricas relacionadas con la comprensión de video, incluyendo la respuesta a preguntas y el razonamiento temporal.
CoPE-VideoLM: Un Avance en la Eficiencia de los Modelos de Lenguaje de Video
Un nuevo enfoque en los modelos de lenguaje de video, CoPE-VideoLM, mejora la comprensión del contenido de video por parte de los sistemas de IA al utilizar primitivas de códecs de video. Este método aborda los desafíos que enfrentan los actuales Modelos de Lenguaje de Video (VideoLM), como los altos costos computacionales y la cobertura temporal limitada.
El análisis de video tradicional a menudo depende del muestreo de fotogramas clave, lo que puede pasar por alto eventos y detalles críticos. CoPE-VideoLM mitiga estos problemas al utilizar vectores de movimiento y residuos de códecs de video, permitiendo una representación eficiente sin la necesidad de codificación de imagen completa para la mayoría de los fotogramas.
Codificadores Basados en Transformadores Innovadores
El marco de CoPE-VideoLM introduce codificadores livianos basados en transformadores que agregan primitivas de códec. Este enfoque mejora la eficiencia en el ajuste fino de extremo a extremo, logrando una reducción en el tiempo hasta el primer token de hasta 86% y reduciendo el uso de tokens en hasta 93% en comparación con los VideoLMs estándar.
Rendimiento en Diversos Benchmarks
CoPE-VideoLM mantiene o supera el rendimiento en 14 benchmarks diversos de comprensión de video, incluyendo tareas relacionadas con la respuesta a preguntas generales, razonamiento temporal y comprensión espacial de escenas. Esto demuestra la versatilidad del enfoque CoPE-VideoLM mientras mantiene el rendimiento en varias tareas de análisis de video.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2602.13191v1
Todos los derechos y créditos pertenecen al editor original.