Robustez demostrable en modelos de lenguaje multimodal grandes a través del suavizado del espacio de características

Imagen generada por Gemini AI
Se ha propuesto un nuevo enfoque denominado Smoothing en el Espacio de Características (Feature-space Smoothing, FS) para mejorar la robustez de los modelos de lenguaje multimodal grandes (MLLMs) frente a ataques adversariales. FS garantiza un límite inferior certificado en la similitud coseno de características bajo ataques acotados por $\ell_2$. La incorporación del módulo Purificador y Mapeador de Suavidad (PSM) mejora aún más la robustez sin necesidad de reentrenamiento. Los experimentos demuestran que FS-PSM reduce significativamente la Tasa de Éxito de Ataques, pasando de casi 90% a aproximadamente 1%, superando el rendimiento del entrenamiento adversarial tradicional en diversos MLLMs y tareas.
Nuevo Método Mejora la Robustez de Modelos de Lenguaje Grande Multimodales
La investigación sobre modelos de lenguaje grande multimodales (MLLMs) ha llevado a una nueva técnica destinada a contrarrestar las vulnerabilidades a ataques adversariales. El método de Suavizado en el Espacio de Características (FS) proporciona robustez certificada al garantizar representaciones de características estables, lo que mejora significativamente la resistencia de los modelos a las perturbaciones.
El método FS transforma cualquier codificador de características en una variante suavizada que garantiza un límite inferior certificado sobre la similitud coseno entre representaciones limpias y adversariales durante ataques con límite $\ell_2$, lo cual es crucial para mantener la integridad del modelo frente a amenazas adversariales.
Hallazgos Clave y Metodología
El Límite de Similitud Coseno de Características (FCSB) derivado de FS puede ser mejorado al aumentar la puntuación de robustez gaussiana del codificador original mediante el Purificador y el Mapeador de Suavidad (PSM), que incrementa la puntuación de robustez gaussiana sin necesidad de reentrenar los MLLMs.
La integración de FS y PSM demuestra un rendimiento empírico superior. Amplios experimentos revelan que el método FS-PSM reduce significativamente la Tasa de Éxito de Ataques (ASR) de múltiples ataques de caja blanca, pasando de casi el 90% a aproximadamente el 1%.
Temas relacionados:
📰 Fuente original: https://arxiv.org/abs/2601.16200v1
Todos los derechos y créditos pertenecen al editor original.