CoPE-VideoLM: Codec-Primitiven für effiziente Video-Sprachmodelle

Von Gemini AI generiertes Bild
Ein neuer Ansatz für Video-Sprachmodelle (VideoLMs) nutzt Videocodierungs-Primitiven wie Bewegungsvektoren, um das Verständnis von Videos durch KI zu verbessern und gleichzeitig die Rechenkosten zu minimieren. Diese Methode reduziert die Zeit bis zum ersten Token um bis zu 86 % und den Token-Verbrauch um 93 %, während die Leistung bei 14 Benchmarks zur Videoverarbeitung, einschließlich Fragenbeantwortung und zeitlicher Schlussfolgerungen, entweder aufrechterhalten oder sogar übertroffen wird.
CoPE-VideoLM: Ein Durchbruch in der Effizienz von Video-Sprachmodellen
Ein neuer Ansatz bei Video-Sprachmodellen, CoPE-VideoLM, verbessert das Verständnis von Videoinhalten durch KI-Systeme, indem er Video-Codec-Primitiven nutzt. Diese Methode geht Herausforderungen an, denen sich aktuelle Video-Sprachmodelle (VideoLMs) gegenübersehen, wie hohe Rechenkosten und begrenzte zeitliche Abdeckung.
Traditionelle Videoanalysen basieren oft auf der Stichprobenentnahme von Schlüsselbildern, was kritische Ereignisse und Details übersehen kann. CoPE-VideoLM mindert diese Probleme, indem es Bewegungsvektoren und Residuen von Video-Codecs nutzt, was eine effiziente Darstellung ermöglicht, ohne dass die vollständige Bildkodierung für die meisten Frames erforderlich ist.
Innovative Transformer-basierte Encoder
Das CoPE-VideoLM-Framework führt leichte transformerbasierte Encoder ein, die Codec-Primitiven aggregieren. Dieser Ansatz verbessert die Effizienz beim End-to-End-Fine-Tuning und erzielt eine Reduzierung der Zeit bis zum ersten Token um bis zu 86% und verringert den Tokenverbrauch um bis zu 93% im Vergleich zu standardmäßigen VideoLMs.
Leistung über verschiedene Benchmarks hinweg
CoPE-VideoLM hält die Leistung auf 14 verschiedenen Benchmarks für das Verständnis von Videos aufrecht oder übertrifft sie, einschließlich Aufgaben im Zusammenhang mit allgemeiner Fragebeantwortung, zeitlichem Denken und räumlichem Szenenverständnis. Dies demonstriert die Vielseitigkeit des CoPE-VideoLM-Ansatzes, während die Leistung bei verschiedenen Videoanalyseaufgaben beibehalten wird.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2602.13191v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.