Доказуемая надежность многомодальных больших языковых моделей через сглаживание пространств признаков

Изображение создано Gemini AI
Предложен новый подход под названием сглаживание в пространстве признаков (Feature-space Smoothing, FS), который направлен на повышение устойчивости мультимодальных больших языковых моделей (MLLM) к атакам с использованием противодействия. FS обеспечивает сертифицированный нижний предел на косинусное сходство признаков при атаках, ограниченных по норме $\ell_2$. Внедрение модуля Purifier and Smoothness Mapper (PSM) дополнительно укрепляет устойчивость без необходимости повторной тренировки. Эксперименты показывают, что FS-PSM значительно снижает уровень успешных атак с почти 90% до около 1%, превосходя традиционное обучение с учетом противодействия в различных MLLM и задачах.
Новый метод повышает устойчивость многомодальных больших языковых моделей
Исследования многомодальных больших языковых моделей (MLLMs) привели к появлению новой техники, направленной на противодействие уязвимостям к атакующим воздействиям. Метод сглаживания в пространстве признаков (FS) обеспечивает сертифицированную устойчивость, гарантируя стабильные представления признаков и значительно увеличивая сопротивляемость моделей к возмущениям.
Метод FS преобразует любой кодировщик признаков в сглаженный вариант, который гарантирует сертифицированную нижнюю границу косинусного сходства между чистыми и атакующими представлениями во время атак с ограничением по $\ell_2$, что имеет решающее значение для поддержания целостности модели против угроз со стороны атакующих.
Ключевые выводы и методология
Граница косинусного сходства признаков (FCSB), полученная из FS, может быть улучшена за счет увеличения оценочного показателя гауссовской устойчивости оригинального кодировщика с помощью Очищающего устройства и Отображателя гладкости (PSM), который повышает оценочный показатель гауссовской устойчивости без повторной тренировки MLLMs.
Интеграция FS и PSM демонстрирует превосходные эмпирические результаты. Обширные эксперименты показывают, что метод FS-PSM значительно снижает уровень успеха атак (ASR) для нескольких атак в белом ящике, уменьшив его с почти 90% до примерно 1%.
Связанные темы:
📰 Первоисточник: https://arxiv.org/abs/2601.16200v1
Все права и авторство принадлежат первоначальному издателю.