Доказуемая надежность многомодальных больших языковых моделей через сглаживание пространств признаков

•

Оригинальный автор:Song Xia et al.

•

22 января 2026 г.

Доказуемая надежность многомодальных больших языковых моделей через сглаживание пространств признаков

Изображение создано Gemini AI

Предложен новый подход под названием сглаживание в пространстве признаков (Feature-space Smoothing, FS), который направлен на повышение устойчивости мультимодальных больших языковых моделей (MLLM) к атакам с использованием противодействия. FS обеспечивает сертифицированный нижний предел на косинусное сходство признаков при атаках, ограниченных по норме $\ell_2$. Внедрение модуля Purifier and Smoothness Mapper (PSM) дополнительно укрепляет устойчивость без необходимости повторной тренировки. Эксперименты показывают, что FS-PSM значительно снижает уровень успешных атак с почти 90% до около 1%, превосходя традиционное обучение с учетом противодействия в различных MLLM и задачах.

Новый метод повышает устойчивость многомодальных больших языковых моделей

Исследования многомодальных больших языковых моделей (MLLMs) привели к появлению новой техники, направленной на противодействие уязвимостям к атакующим воздействиям. Метод сглаживания в пространстве признаков (FS) обеспечивает сертифицированную устойчивость, гарантируя стабильные представления признаков и значительно увеличивая сопротивляемость моделей к возмущениям.

Метод FS преобразует любой кодировщик признаков в сглаженный вариант, который гарантирует сертифицированную нижнюю границу косинусного сходства между чистыми и атакующими представлениями во время атак с ограничением по $\ell_2$, что имеет решающее значение для поддержания целостности модели против угроз со стороны атакующих.

Ключевые выводы и методология

Граница косинусного сходства признаков (FCSB), полученная из FS, может быть улучшена за счет увеличения оценочного показателя гауссовской устойчивости оригинального кодировщика с помощью Очищающего устройства и Отображателя гладкости (PSM), который повышает оценочный показатель гауссовской устойчивости без повторной тренировки MLLMs.

Интеграция FS и PSM демонстрирует превосходные эмпирические результаты. Обширные эксперименты показывают, что метод FS-PSM значительно снижает уровень успеха атак (ASR) для нескольких атак в белом ящике, уменьшив его с почти 90% до примерно 1%.

Связанные темы:

многомодальные большие языковые моделиустойчивостьсглаживание пространства признаковсертифицированная устойчивостьмодуль Purifier and Smoothness Mapper

📰 Первоисточник: https://arxiv.org/abs/2601.16200v1

Все права и авторство принадлежат первоначальному издателю.

Поделиться статьей

Twitter Facebook LinkedIn WhatsApp Reddit