Nachweisbare Robustheit in multimodalen großen Sprachmodellen durch Merkmalsraum-Glättung

Von Gemini AI generiertes Bild
Ein neuer Ansatz namens Feature-space Smoothing (FS) wurde vorgestellt, um die Robustheit multimodaler großer Sprachmodelle (MLLMs) gegenüber adversarialen Angriffen zu verbessern. FS gewährleistet eine zertifizierte untere Schranke für die Kosinusähnlichkeit von Merkmalen unter $\ell_2$-beschränkten Angriffen. Die Hinzufügung des Moduls Purifier and Smoothness Mapper (PSM) steigert die Robustheit zusätzlich, ohne dass ein Retraining erforderlich ist. Experimente zeigen, dass FS-PSM die Erfolgsquote von Angriffen drastisch von nahezu 90 % auf etwa 1 % senkt und dabei traditionelle adversariale Trainingsmethoden in verschiedenen MLLMs und Aufgaben übertrifft.
Neue Methode verbessert die Robustheit multimodaler großer Sprachmodelle
Forschungen zu multimodalen großen Sprachmodellen (MLLMs) haben zu einer neuen Technik geführt, die darauf abzielt, Schwachstellen gegenüber adversarialen Angriffen zu bekämpfen. Die Methode der Feature-Smoothing (FS) bietet zertifizierte Robustheit, indem sie stabile Merkmalsdarstellungen gewährleistet und somit die Widerstandsfähigkeit der Modelle gegenüber Störungen erheblich verbessert.
Die FS-Methode transformiert jeden Merkmalsencoder in eine geglättete Variante, die eine zertifizierte untere Grenze für die Kosinusähnlichkeit zwischen sauberen und adversarialen Darstellungen während $\ell_2$-begrenzter Angriffe garantiert, was entscheidend ist, um die Integrität des Modells gegen adversariale Bedrohungen aufrechtzuerhalten.
Wichtige Erkenntnisse und Methodik
Die aus FS abgeleitete Feature Cosine Similarity Bound (FCSB) kann verbessert werden, indem die Gaussian-Robustheitsbewertung des ursprünglichen Encoders durch den Purifier und Smoothness Mapper (PSM) erhöht wird, was die Gaussian-Robustheitsbewertung steigert, ohne die MLLMs neu trainieren zu müssen.
Die Integration von FS und PSM zeigt überlegene empirische Leistungen. Umfassende Experimente zeigen, dass die FS-PSM-Methode die Erfolgsquote von Angriffen (ASR) bei mehreren White-Box-Angriffen erheblich reduziert, von fast 90 % auf etwa 1 %.
Verwandte Themen:
📰 Originalquelle: https://arxiv.org/abs/2601.16200v1
Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.