探讨在音频深度伪造检测中使用多模态大型语言模型的可行性

•

原作者:Akanksha Chuchra et al.

•

2026年1月2日

Gemini AI生成的图像

一项研究探讨了多模态大型语言模型（MLLMs）在音频深度伪造检测中的应用，这是一个之前较少被研究的领域。研究者通过将音频输入与文本提示相结合，评估了两个模型：Qwen2-Audio-7B-Instruct和SALMONN，分别在零样本和微调模式下进行测试。结果显示，尽管在域外数据上的表现不佳，但这两个模型在域内任务中表现出色，且仅需最少的监督，这为提升音频深度伪造检测指明了一个有前景的方向。

多模态大型语言模型在音频深度伪造检测中展现出潜力

近期对多模态大型语言模型（MLLMs）的研究为音频深度伪造检测开辟了新的途径。本研究通过将音频输入与文本提示结合，探讨了MLLMs的有效性，以增强检测能力。

该研究重点关注两个MLLM，Qwen2-Audio-7B-Instruct和SALMONN，评估它们在零-shot和微调模式下的表现。研究人员采用了一种将音频数据与文本提示结合的方法，以改善音频深度伪造检测的特征学习。

研究结果

实验结果显示出混合的表现：

在没有针对特定任务的训练情况下，模型在检测音频深度伪造方面表现不佳。
在最小监督下，模型在检测领域内的音频深度伪造方面表现出显著的效果，表明有针对性的训练可以增强其能力。

研究结果表明，当MLLMs在相关数据上进行训练时，可以有效地检测音频深度伪造，但其性能在很大程度上依赖于训练过程的质量。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

探讨在音频深度伪造检测中使用多模态大型语言模型的可行性

多模态大型语言模型在音频深度伪造检测中展现出潜力

研究结果

相关主题：

分享此文章