CoPE-VideoLM : Primitives de codec pour des modèles de langage vidéo efficaces

Image générée par Gemini AI
Une nouvelle approche des modèles de langage vidéo (VideoLMs) exploite les primitives des codecs vidéo, telles que les vecteurs de mouvement, pour améliorer la compréhension vidéo par l'IA tout en réduisant les coûts computationnels. Cette méthode permet de diminuer considérablement le temps d'accès au premier jeton jusqu'à 86 % et l'utilisation des jetons de 93 %, tout en maintenant ou dépassant les performances sur 14 critères d'évaluation liés à la compréhension vidéo, incluant le questionnement et le raisonnement temporel.
CoPE-VideoLM : Une avancée dans l'efficacité des modèles de langage vidéo
Une nouvelle approche dans les modèles de langage vidéo, CoPE-VideoLM, améliore la compréhension du contenu vidéo par les systèmes d'IA en utilisant des primitives de codec vidéo. Cette méthode répond aux défis rencontrés par les modèles de langage vidéo actuels (VideoLM), tels que les coûts computationnels élevés et la couverture temporelle limitée.
L'analyse vidéo traditionnelle s'appuie souvent sur l'échantillonnage de keyframes, ce qui peut faire manquer des événements et des détails critiques. CoPE-VideoLM atténue ces problèmes en utilisant des vecteurs de mouvement et des résidus issus des codecs vidéo, permettant une représentation efficace sans encodage d'image complète pour la plupart des images.
Encodeurs basés sur des transformateurs innovants
Le cadre CoPE-VideoLM introduit des encodeurs légers basés sur des transformateurs qui agrègent les primitives de codec. Cette approche améliore l'efficacité du fine-tuning de bout en bout, atteignant une réduction du temps jusqu'au premier jeton de jusqu'à 86% et réduisant l'utilisation de jetons de jusqu'à 93% par rapport aux VideoLM standard.
Performance sur divers benchmarks
CoPE-VideoLM maintient ou dépasse les performances sur 14 benchmarks divers de compréhension vidéo, y compris des tâches liées à la réponse à des questions générales, au raisonnement temporel et à la compréhension des scènes spatiales. Cela démontre la polyvalence de l'approche CoPE-VideoLM tout en maintenant des performances sur diverses tâches d'analyse vidéo.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2602.13191v1
Tous les droits et crédits appartiennent à l'éditeur original.