Robustesse prouvable dans les modèles de langage multimodaux grâce à l'adoucissement de l'espace des caractéristiques

•

Auteur original:Song Xia et al.

•

22 janvier 2026

Robustesse prouvable dans les modèles de langage multimodaux grâce à l'adoucissement de l'espace des caractéristiques

Image générée par Gemini AI

Une nouvelle approche, appelée lissage dans l'espace des caractéristiques (Feature-space Smoothing, FS), a été proposée pour renforcer la robustesse des modèles de langage multimodaux (MLLMs) face aux attaques adversariales. Le FS garantit une borne inférieure certifiée sur la similarité cosinus des caractéristiques en cas d'attaques contraintes par $\ell_2$. L'ajout du module Purifier and Smoothness Mapper (PSM) améliore encore la robustesse sans nécessiter de réentraînement. Les expériences montrent que le FS-PSM réduit de manière significative le taux de succès des attaques, le faisant passer de près de 90 % à environ 1 %, et surpasse les méthodes traditionnelles d'entraînement adversarial sur divers MLLMs et tâches.

Une nouvelle méthode renforce la robustesse des modèles de langage multimodaux de grande taille

La recherche sur les modèles de langage multimodaux de grande taille (MLLMs) a conduit à une nouvelle technique visant à contrer les vulnérabilités aux attaques adversariales. La méthode de lissage dans l'espace des caractéristiques (FS) offre une robustesse certifiée en garantissant des représentations de caractéristiques stables, améliorant considérablement la résistance des modèles aux perturbations.

La méthode FS transforme tout encodeur de caractéristiques en une variante lissée qui garantit une limite inférieure certifiée sur la similarité cosinus entre les représentations propres et adversariales lors des attaques à contrainte $\ell_2$, ce qui est crucial pour maintenir l'intégrité du modèle face aux menaces adversariales.

Résultats clés et méthodologie

La limite de similarité cosinus des caractéristiques (FCSB) dérivée de la méthode FS peut être améliorée en augmentant le score de robustesse gaussienne de l'encodeur original via le Purificateur et le Cartographe de Lissage (PSM), qui augmente le score de robustesse gaussienne sans nécessiter de réentraînement des MLLMs.

L'intégration de FS et PSM démontre une performance empirique supérieure. Des expériences approfondies révèlent que la méthode FS-PSM réduit considérablement le taux de succès des attaques (ASR) de plusieurs attaques en boîte blanche, passant de près de 90 % à environ 1 %.

Sujets connexes :

Robustesse certifiéeLissage de l'Espace de CaractéristiquesModèles de Langage MultimodalPurificateur et Cartographe de LissageTaux de Succès des Attaques

📰 Source originale : https://arxiv.org/abs/2601.16200v1

Tous les droits et crédits appartiennent à l'éditeur original.

Partager cet article

Twitter Facebook LinkedIn WhatsApp Reddit