Исследование целесообразности использования мультимодальных больших языковых моделей для обнаружения аудио дипфейков

•

Оригинальный автор:Akanksha Chuchra et al.

•

2 января 2026 г.

Исследование целесообразности использования мультимодальных больших языковых моделей для обнаружения аудио дипфейков

Изображение создано Gemini AI

Исследование посвящено использованию мультимодальных больших языковых моделей (MLLM) для обнаружения аудио-дийпфейков, что является ранее недостаточно изученной областью. Объединив аудиовходы с текстовыми подсказками, исследователи оценили две модели: Qwen2-Audio-7B-Instruct и SALMONN в режимах нулевого обучения и дообучения. Результаты показывают, что, хотя производительность моделей на данных вне обучающей выборки оставляет желать лучшего, они демонстрируют отличные результаты в задачах в рамках обучающей выборки при минимальном контроле, что указывает на многообещающее направление для улучшения обнаружения аудио-дийпфейков.

Мультимодальные большие языковые модели демонстрируют перспективы для обнаружения аудио-дипфейков

Недавние исследования мультимодальных больших языковых моделей (МБЯМ) открыли новые возможности для обнаружения аудио-дипфейков. Это исследование направлено на оценку эффективности МБЯМ, интегрируя аудио-входы с текстовыми подсказками для повышения возможностей обнаружения.

Исследование фокусируется на двух МБЯМ: Qwen2-Audio-7B-Instruct и SALMONN, оценивая их производительность в режимах нулевого обучения и дообучения. Исследователи применили подход, который сочетает аудиоданные с текстовыми подсказками для улучшения обучения признаков для обнаружения аудио-дипфейков.

Результаты

Эксперименты продемонстрировали смешанные результаты:

Без специализированного обучения модели демонстрировали низкую эффективность в обнаружении аудио-дипфейков.
С минимальным контролем модели показали значительную эффективность в обнаружении аудио-дипфейков в своей области, что предполагает, что целенаправленное обучение может улучшить их возможности.

Результаты указывают на то, что МБЯМ могут эффективно обнаруживать аудио-дипфейки при обучении на соответствующих данных, но их производительность в значительной степени зависит от качества процесса обучения.

Связанные темы:

многомодальные большие языковые моделиобнаружение аудиодипфейковQwen2-Audio-7B-InstructSALMONNмногообещающий потенциал

📰 Первоисточник: https://arxiv.org/abs/2601.00777v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit