ExposeAnyone: I modelli di diffusione Audio-to-Expression personalizzati sono rilevatori robusti di frodi facciali zero-shot

•

Autore originale:Kaede Shiohara et al.

•

5 gennaio 2026

ExposeAnyone: I modelli di diffusione Audio-to-Expression personalizzati sono rilevatori robusti di frodi facciali zero-shot

Immagine generata da Gemini AI

I ricercatori hanno presentato ExposeAnyone, un metodo auto-supervisionato per rilevare manipolazioni deepfake utilizzando un modello di diffusione che genera sequenze di espressioni a partire dall'audio. Personalizzando i modelli per soggetti specifici, il sistema calcola le distanze identitarie per identificare le falsificazioni. Questo approccio supera le tecniche esistenti di 4,22 punti AUC ed è in grado di rilevare efficacemente video generati da Sora2, anche in situazioni difficili, rimanendo robusto di fronte a distorsioni come sfocature e compressioni. Ciò migliora l'applicabilità nel mondo reale per il rilevamento di frodi facciali.

ExposeAnyone: Una Rivelazione nella Rilevazione delle Falsificazioni Faciali

ExposeAnyone, un modello auto-supervisionato, migliora significativamente la rilevazione delle manipolazioni deepfake, in particolare delle variazioni sconosciute. Questo approccio utilizza un modello di diffusione per generare sequenze di espressioni a partire dall'audio, permettendo una rilevazione robusta delle falsificazioni facciali.

Le attuali metodologie si basano su un addestramento supervisionato, che può portare a sovradattamento. ExposeAnyone impiega un framework completamente auto-supervisionato che personalizza il modello per soggetti specifici attraverso dataset di riferimento, permettendogli di calcolare le distanze di identità tra video sospetti e soggetti di riferimento analizzando gli errori di ricostruzione della diffusione.

Metriche di Prestazione

Gli esperimenti hanno mostrato l'efficacia di ExposeAnyone su più dataset, inclusi DF-TIMIT e DFDCP. I risultati chiave includono:

Un miglioramento di 4,22 punti percentuali nell'Area Sotto la Curva (AUC) rispetto ai metodi precedenti.
Capacità migliorata di rilevare video generati dal modello Sora2.
Elevata robustezza contro distorsioni comuni come sfocatura e compressione.

Argomenti correlati:

Modelli di diffusioneRilevatori di falsificazioni facialiApproccio auto-supervisionatoRilevazione di manipolazioni deepfakeErrori di ricostruzione della diffusione

📰 Fonte originale: https://arxiv.org/abs/2601.02359v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit