探讨在音频深度伪造检测中使用多模态大型语言模型的可行性

Gemini AI生成的图像
一项研究探讨了多模态大型语言模型(MLLMs)在音频深度伪造检测中的应用,这是一个之前较少被研究的领域。研究者通过将音频输入与文本提示相结合,评估了两个模型:Qwen2-Audio-7B-Instruct和SALMONN,分别在零样本和微调模式下进行测试。结果显示,尽管在域外数据上的表现不佳,但这两个模型在域内任务中表现出色,且仅需最少的监督,这为提升音频深度伪造检测指明了一个有前景的方向。
多模态大型语言模型在音频深度伪造检测中展现出潜力
近期对多模态大型语言模型(MLLMs)的研究为音频深度伪造检测开辟了新的途径。本研究通过将音频输入与文本提示结合,探讨了MLLMs的有效性,以增强检测能力。
该研究重点关注两个MLLM,Qwen2-Audio-7B-Instruct和SALMONN,评估它们在零-shot和微调模式下的表现。研究人员采用了一种将音频数据与文本提示结合的方法,以改善音频深度伪造检测的特征学习。
研究结果
实验结果显示出混合的表现:
- 在没有针对特定任务的训练情况下,模型在检测音频深度伪造方面表现不佳。
- 在最小监督下,模型在检测领域内的音频深度伪造方面表现出显著的效果,表明有针对性的训练可以增强其能力。
研究结果表明,当MLLMs在相关数据上进行训练时,可以有效地检测音频深度伪造,但其性能在很大程度上依赖于训练过程的质量。
相关主题:
音频深伪检测多模态大语言模型视觉-语言模型特征引导的推理泛化能力
📰 原始来源: https://arxiv.org/abs/2601.00777v1
所有权利和署名均属于原出版商。