ExposeAnyone: Modelos de Difusión de Audio a Expresión Personalizados Son Detectores Robustos de Falsificación Facial en Cero Tiros

•

Autor original:Kaede Shiohara et al.

•

5 de enero de 2026

ExposeAnyone: Modelos de Difusión de Audio a Expresión Personalizados Son Detectores Robustos de Falsificación Facial en Cero Tiros

Imagen generada por Gemini AI

Investigadores han presentado ExposeAnyone, un método auto-supervisado para detectar manipulaciones deepfake utilizando un modelo de difusión que genera secuencias de expresión a partir de audio. Al personalizar los modelos para sujetos específicos, este enfoque calcula distancias de identidad para identificar falsificaciones. ExposeAnyone supera a los métodos existentes por 4.22 puntos AUC y detecta de manera efectiva videos generados por Sora2, incluso en condiciones desafiantes, manteniéndose robusto ante distorsiones como el desenfoque y la compresión. Esto mejora su aplicabilidad en el mundo real para la detección de falsificaciones faciales.

ExposeAnyone: Un Avance en la Detección de Falsificaciones Faciales

ExposeAnyone, un modelo autoguiado, mejora significativamente la detección de manipulaciones deepfake, especialmente variaciones desconocidas. Este enfoque utiliza un modelo de difusión para generar secuencias de expresión a partir de audio, permitiendo una detección robusta de falsificaciones faciales.

Los métodos actuales dependen de un entrenamiento supervisado, lo que puede llevar al sobreajuste. ExposeAnyone emplea un marco completamente autoguiado que personaliza el modelo a sujetos específicos a través de conjuntos de datos de referencia, lo que le permite calcular distancias de identidad entre videos sospechosos y sujetos de referencia mediante el análisis de errores de reconstrucción por difusión.

Métricas de Rendimiento

Los experimentos han demostrado la efectividad de ExposeAnyone en múltiples conjuntos de datos, incluyendo DF-TIMIT y DFDCP. Los hallazgos clave incluyen:

Una mejora de 4.22 puntos porcentuales en el Área Bajo la Curva (AUC) en comparación con métodos anteriores.
Capacidad mejorada para detectar videos generados por el modelo Sora2.
Fuerte robustez contra distorsiones comunes como el desenfoque y la compresión.

Temas relacionados:

Modelos de DifusiónDetección de Falsificaciones FacialesAuto-supervisiónGeneralizaciónErrores de Reconstrucción

📰 Fuente original: https://arxiv.org/abs/2601.02359v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit