ExposeAnyone:个性化音频到表情的扩散模型是强大的零样本人脸伪造检测器

Gemini AI生成的图像
研究人员推出了ExposeAnyone,这是一种自我监督的方法,利用扩散模型从音频生成表情序列,以检测深度伪造的操控。通过将模型个性化到特定对象,该方法计算身份距离来识别伪造内容。与现有方法相比,该技术在AUC值上提升了4.22点,能够有效检测出由Sora2生成的复杂视频,并且在面对模糊和压缩等失真时依然保持稳健,从而增强了其在现实环境中面部伪造检测的适用性。
ExposeAnyone:面部伪造检测的突破性进展
ExposeAnyone 是一种自我监督模型,显著增强了对深度伪造操控的检测,尤其是未知变种。该方法利用扩散模型从音频生成表情序列,能够有效检测面部伪造。
当前的方法依赖于监督训练,这可能导致过拟合。ExposeAnyone 采用完全自我监督的框架,通过参考数据集将模型个性化到特定对象,使其能够通过分析扩散重建误差计算可疑视频与参考对象之间的身份距离。
性能指标
实验展示了 ExposeAnyone 在多个数据集上的有效性,包括 DF-TIMIT 和 DFDCP。主要发现包括:
- 相比于之前的方法,平均曲线下面积(AUC)提高了 4.22 个百分点。
- 增强了检测 Sora2 模型生成的视频的能力。
- 对模糊和压缩等常见失真具有强大的鲁棒性。
相关主题:
个性化音频表情扩散模型零样本人脸伪造检测自监督方法鲁棒性
📰 原始来源: https://arxiv.org/abs/2601.02359v1
所有权利和署名均属于原出版商。