Étude de la faisabilité de l'utilisation de modèles de langage multimodaux dans le cadre de la détection de deepfakes audio

•

Auteur original:Akanksha Chuchra et al.

•

2 janvier 2026

Étude de la faisabilité de l'utilisation de modèles de langage multimodaux dans le cadre de la détection de deepfakes audio

Image générée par Gemini AI

Une étude examine l'utilisation des Modèles de Langage Multimodaux de Grande Taille (MLLM) pour la détection des deepfakes audio, un domaine jusqu'alors peu exploré. En combinant des entrées audio avec des invites textuelles, les chercheurs ont évalué deux modèles, le Qwen2-Audio-7B-Instruct et le SALMONN, dans des modes zéro-shot et finement ajusté. Les résultats montrent qu'alors que la performance sur des données hors domaine est insuffisante, les modèles excellent dans les tâches en domaine avec un minimum de supervision, suggérant une direction prometteuse pour améliorer la détection des deepfakes audio.

Les Modèles de Langage Multimodaux à Grande Échelle Montrent un Potentiel pour la Détection de Deepfakes Audio

Des recherches récentes sur les Modèles de Langage Multimodaux à Grande Échelle (MLLMs) ont ouvert de nouvelles perspectives pour la détection de deepfakes audio. Cette étude examine l'efficacité des MLLMs en intégrant des entrées audio avec des invites textuelles pour améliorer les capacités de détection.

L'étude se concentre sur deux MLLMs, Qwen2-Audio-7B-Instruct et SALMONN, en évaluant leur performance dans les modes zero-shot et fine-tuning. Les chercheurs ont utilisé une approche qui combine les données audio avec des invites textuelles pour améliorer l'apprentissage des caractéristiques pour la détection de deepfakes audio.

Résultats

Les expériences ont révélé des résultats mitigés :

Sans formation spécifique à la tâche, les modèles ont montré de faibles performances dans la détection de deepfakes audio.
Avec une supervision minimale, les modèles ont montré une efficacité significative dans la détection de deepfakes audio dans le domaine, suggérant qu'une formation ciblée pourrait améliorer leur capacité.

Les résultats suggèrent que les MLLMs peuvent détecter efficacement les deepfakes audio lorsqu'ils sont formés sur des données pertinentes, mais leur performance dépend fortement de la qualité du processus de formation.

Sujets connexes :

modèles de langage multimodauxdétection de deepfakes audioQwen2-Audio-7B-InstructSALMONNapprentissage robuste

📰 Source originale : https://arxiv.org/abs/2601.00777v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit