ExposeAnyone : Les modèles de diffusion audio-à-expression personnalisés se révèlent être des détecteurs robustes de falsifications faciales en zéro-shot.

•

Auteur original:Kaede Shiohara et al.

•

5 janvier 2026

ExposeAnyone : Les modèles de diffusion audio-à-expression personnalisés se révèlent être des détecteurs robustes de falsifications faciales en zéro-shot.

Image générée par Gemini AI

Des chercheurs ont présenté ExposeAnyone, une méthode auto-supervisée pour détecter les manipulations deepfake utilisant un modèle de diffusion qui génère des séquences d'expression à partir de l'audio. En personnalisant les modèles pour des sujets spécifiques, cette méthode calcule des distances d'identité afin d'identifier les contrefaçons. Ce procédé surpasse les méthodes existantes avec un gain de 4,22 points AUC et détecte efficacement des vidéos générées par Sora2, même dans des conditions difficiles, tout en restant robuste face à des distorsions telles que le flou et la compression. Cela renforce l'applicabilité dans le monde réel de la détection de falsifications faciales.

ExposeAnyone : Une Percée dans la Détection de la Contrefaçon Faciale

ExposeAnyone, un modèle auto-supervisé, améliore considérablement la détection des manipulations deepfake, en particulier les variations inconnues. Cette approche utilise un modèle de diffusion pour générer des séquences d'expressions à partir de l'audio, permettant une détection robuste de la contrefaçon faciale.

Les méthodes actuelles s'appuient sur un entraînement supervisé, ce qui peut conduire à un surapprentissage. ExposeAnyone adopte un cadre entièrement auto-supervisé qui personnalise le modèle pour des sujets spécifiques grâce à des ensembles de données de référence, lui permettant de calculer les distances d'identité entre des vidéos suspectes et des sujets de référence en analysant les erreurs de reconstruction de diffusion.

Métriques de Performance

Les expériences ont démontré l'efficacité d'ExposeAnyone à travers plusieurs ensembles de données, y compris DF-TIMIT et DFDCP. Les principales conclusions incluent :

Une amélioration de 4,22 points de pourcentage de l'aire sous la courbe (AUC) par rapport aux méthodes précédentes.
Une capacité améliorée à détecter les vidéos générées par le modèle Sora2.
Une robustesse forte face aux distorsions courantes telles que le flou et la compression.

Sujets connexes :

ExposéAnyonedétection de manipulations deepfakeauto-supervisionmodèle de diffusionfalsifications faciales

📰 Source originale : https://arxiv.org/abs/2601.02359v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit