通过特征空间平滑实现多模态大型语言模型的可证明鲁棒性

Gemini AI生成的图像
一种名为特征空间平滑(Feature-space Smoothing, FS)的新方法被提出,以增强多模态大语言模型(MLLMs)对对抗攻击的鲁棒性。FS 确保在 $\ell_2$ 有界攻击下特征余弦相似度的认证下限。引入的净化器和平滑映射器(Purifier and Smoothness Mapper, PSM)模块进一步提升了鲁棒性,且无需重新训练。实验表明,FS-PSM 显著降低了攻击成功率,从近 90% 降至约 1%,在多个 MLLMs 和任务上表现优于传统的对抗训练方法。
新方法增强多模态大语言模型的鲁棒性
对多模态大语言模型(MLLMs)的研究催生了一种新技术,旨在应对对抗性攻击的脆弱性。特征空间平滑(FS)方法通过确保稳定的特征表示提供了认证的鲁棒性,显著增强了模型对扰动的抵抗力。
FS方法将任何特征编码器转换为平滑变体,确保在$\ell_2$-有界攻击期间干净和对抗性表示之间的余弦相似度具有认证的下限,这对于维护模型在对抗威胁下的完整性至关重要。
主要发现与方法论
从FS衍生的特征余弦相似度界限(FCSB)可以通过净化器和平滑映射器(PSM)提高,通过提高原始编码器的高斯鲁棒性分数,增强高斯鲁棒性分数而无需重新训练MLLMs。
FS与PSM的结合展示了卓越的实证性能。大量实验表明,FS-PSM方法显著降低了多种白盒攻击的攻击成功率(ASR),从接近90%降至约1%。
相关主题:
多模态大语言模型特征空间平滑认证鲁棒性特征余弦相似度攻击成功率
📰 原始来源: https://arxiv.org/abs/2601.16200v1
所有权利和署名均属于原出版商。