ExposeAnyone: Modelos de Difusão de Áudio para Expressão Personalizada São Detectores Robustos de Falsificação Facial em Zero-Shot

•

Autor original:Kaede Shiohara et al.

•

5 de janeiro de 2026

ExposeAnyone: Modelos de Difusão de Áudio para Expressão Personalizada São Detectores Robustos de Falsificação Facial em Zero-Shot

Imagem gerada por Gemini AI

Pesquisadores apresentaram o ExposeAnyone, um método auto-supervisionado para detectar manipulações de deepfake, utilizando um modelo de difusão que gera sequências de expressões a partir de áudio. Ao personalizar modelos para sujeitos específicos, a técnica calcula distâncias de identidade para identificar falsificações. Essa abordagem supera os métodos existentes em 4,22 pontos de AUC e detecta de forma eficaz vídeos desafiadores gerados pelo Sora2, mantendo-se robusta contra distorções como desfoque e compressão, o que aumenta sua aplicabilidade no mundo real na detecção de fraudes faciais.

ExposeAnyone: Uma Revolução na Detecção de Falsificações Faciais

ExposeAnyone, um modelo auto-supervisionado, melhora significativamente a detecção de manipulações deepfake, especialmente variações desconhecidas. Esta abordagem utiliza um modelo de difusão para gerar sequências de expressões a partir de áudio, permitindo uma detecção robusta de falsificações faciais.

Os métodos atuais dependem de treinamento supervisionado, o que pode levar ao overfitting. ExposeAnyone emprega uma estrutura totalmente auto-supervisionada que personaliza o modelo para sujeitos específicos através de conjuntos de dados de referência, permitindo que ele calcule distâncias de identidade entre vídeos suspeitos e sujeitos de referência ao analisar erros de reconstrução de difusão.

Métricas de Desempenho

Experimentos demonstraram a eficácia do ExposeAnyone em vários conjuntos de dados, incluindo DF-TIMIT e DFDCP. As principais descobertas incluem:

Uma melhoria de 4,22 pontos percentuais na média da Área sob a Curva (AUC) em relação aos métodos anteriores.
Capacidade aprimorada de detectar vídeos gerados pelo modelo Sora2.
Alta robustez contra distorções comuns, como desfoque e compressão.

Tópicos relacionados:

Modelos de DifusãoDetecção de Falsificações FaciaisAuto-supervisionadoErros de ReconstruçãoRobustez a Corrupções

📰 Fonte original: https://arxiv.org/abs/2601.02359v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit