Robustezza Provabile nei Modelli Linguistici Multimodali di Grandi Dimensioni attraverso il Livellamento dello Spazio delle Caratteristiche

•

Autore originale:Song Xia et al.

•

22 gennaio 2026

Robustezza Provabile nei Modelli Linguistici Multimodali di Grandi Dimensioni attraverso il Livellamento dello Spazio delle Caratteristiche

Immagine generata da Gemini AI

È stato proposto un nuovo approccio chiamato Feature-space Smoothing (FS) per migliorare la robustezza dei modelli di linguaggio multimodali di grandi dimensioni (MLLM) contro gli attacchi avversari. FS garantisce un limite inferiore certificato sulla somiglianza coseno delle caratteristiche sotto attacchi vincolati da $\ell_2$. L'aggiunta del modulo Purifier and Smoothness Mapper (PSM) migliora ulteriormente la robustezza senza necessità di riaddestramento. Gli esperimenti mostrano che FS-PSM riduce significativamente il Tasso di Successo degli Attacchi, passando da quasi il 90% a circa l'1%, superando l'addestramento avversario tradizionale su vari MLLM e compiti.

Nuovo Metodo Aumenta la Robustezza dei Modelli Linguistici Multimodali di Grandi Dimensioni

La ricerca sui modelli linguistici multimodali di grandi dimensioni (MLLM) ha portato a una nuova tecnica volta a contrastare le vulnerabilità agli attacchi avversari. Il metodo Feature-space Smoothing (FS) fornisce robustezza certificata garantendo rappresentazioni delle caratteristiche stabili, migliorando significativamente la resistenza dei modelli alle perturbazioni.

Il metodo FS trasforma qualsiasi codificatore di caratteristiche in una variante smussata che garantisce un limite inferiore certificato sulla similarità coseno tra le rappresentazioni pulite e quelle avverse durante attacchi limitati da $\ell_2$, fondamentale per mantenere l'integrità del modello contro le minacce avversarie.

Risultati Chiave e Metodologia

Il Bound di Similarità Coseno delle Caratteristiche (FCSB) derivato da FS può essere migliorato aumentando il punteggio di robustezza gaussiana del codificatore originale attraverso il Purificatore e il Mappatore di Smoothness (PSM), che incrementa il punteggio di robustezza gaussiana senza riaddestrare i MLLM.

L'integrazione di FS e PSM dimostra prestazioni empiriche superiori. Esperimenti approfonditi rivelano che il metodo FS-PSM riduce significativamente il Tasso di Successo degli Attacchi (ASR) di numerosi attacchi white-box, passando da quasi il 90% a circa l'1%.

Argomenti correlati:

modelli di linguaggio multimodalirobustezza certificataLivellamento dello Spazio delle CaratteristichePurificatore e Mappatore di LiscezzaTasso di Successo degli Attacchi

📰 Fonte originale: https://arxiv.org/abs/2601.16200v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit