ExposeAnyone : Les modèles de diffusion audio-à-expression personnalisés se révèlent être des détecteurs robustes de falsifications faciales en zéro-shot.

Image générée par Gemini AI
Des chercheurs ont présenté ExposeAnyone, une méthode auto-supervisée pour détecter les manipulations deepfake utilisant un modèle de diffusion qui génère des séquences d'expression à partir de l'audio. En personnalisant les modèles pour des sujets spécifiques, cette méthode calcule des distances d'identité afin d'identifier les contrefaçons. Ce procédé surpasse les méthodes existantes avec un gain de 4,22 points AUC et détecte efficacement des vidéos générées par Sora2, même dans des conditions difficiles, tout en restant robuste face à des distorsions telles que le flou et la compression. Cela renforce l'applicabilité dans le monde réel de la détection de falsifications faciales.
ExposeAnyone : Une Percée dans la Détection de la Contrefaçon Faciale
ExposeAnyone, un modèle auto-supervisé, améliore considérablement la détection des manipulations deepfake, en particulier les variations inconnues. Cette approche utilise un modèle de diffusion pour générer des séquences d'expressions à partir de l'audio, permettant une détection robuste de la contrefaçon faciale.
Les méthodes actuelles s'appuient sur un entraînement supervisé, ce qui peut conduire à un surapprentissage. ExposeAnyone adopte un cadre entièrement auto-supervisé qui personnalise le modèle pour des sujets spécifiques grâce à des ensembles de données de référence, lui permettant de calculer les distances d'identité entre des vidéos suspectes et des sujets de référence en analysant les erreurs de reconstruction de diffusion.
Métriques de Performance
Les expériences ont démontré l'efficacité d'ExposeAnyone à travers plusieurs ensembles de données, y compris DF-TIMIT et DFDCP. Les principales conclusions incluent :
- Une amélioration de 4,22 points de pourcentage de l'aire sous la courbe (AUC) par rapport aux méthodes précédentes.
- Une capacité améliorée à détecter les vidéos générées par le modèle Sora2.
- Une robustesse forte face aux distorsions courantes telles que le flou et la compression.
Sujets connexes :
📰 Source originale : https://arxiv.org/abs/2601.02359v1
Tous les droits et crédits appartiennent à l'éditeur original.