通过特征空间平滑实现多模态大型语言模型的可证明鲁棒性

•

原作者:Song Xia et al.

•

2026年1月22日

Gemini AI生成的图像

一种名为特征空间平滑（Feature-space Smoothing, FS）的新方法被提出，以增强多模态大语言模型（MLLMs）对对抗攻击的鲁棒性。FS 确保在 $\ell_2$ 有界攻击下特征余弦相似度的认证下限。引入的净化器和平滑映射器（Purifier and Smoothness Mapper, PSM）模块进一步提升了鲁棒性，且无需重新训练。实验表明，FS-PSM 显著降低了攻击成功率，从近 90% 降至约 1%，在多个 MLLMs 和任务上表现优于传统的对抗训练方法。

新方法增强多模态大语言模型的鲁棒性

对多模态大语言模型（MLLMs）的研究催生了一种新技术，旨在应对对抗性攻击的脆弱性。特征空间平滑（FS）方法通过确保稳定的特征表示提供了认证的鲁棒性，显著增强了模型对扰动的抵抗力。

FS方法将任何特征编码器转换为平滑变体，确保在$\ell_2$-有界攻击期间干净和对抗性表示之间的余弦相似度具有认证的下限，这对于维护模型在对抗威胁下的完整性至关重要。

主要发现与方法论

从FS衍生的特征余弦相似度界限（FCSB）可以通过净化器和平滑映射器（PSM）提高，通过提高原始编码器的高斯鲁棒性分数，增强高斯鲁棒性分数而无需重新训练MLLMs。

FS与PSM的结合展示了卓越的实证性能。大量实验表明，FS-PSM方法显著降低了多种白盒攻击的攻击成功率（ASR），从接近90%降至约1%。

分享此文章

Twitter Facebook LinkedIn WhatsApp Reddit

通过特征空间平滑实现多模态大型语言模型的可证明鲁棒性

新方法增强多模态大语言模型的鲁棒性

主要发现与方法论

相关主题：

分享此文章