Robustez demostrable en modelos de lenguaje multimodal grandes a través del suavizado del espacio de características

•

Autor original:Song Xia et al.

•

22 de enero de 2026

Robustez demostrable en modelos de lenguaje multimodal grandes a través del suavizado del espacio de características

Imagen generada por Gemini AI

Se ha propuesto un nuevo enfoque denominado Smoothing en el Espacio de Características (Feature-space Smoothing, FS) para mejorar la robustez de los modelos de lenguaje multimodal grandes (MLLMs) frente a ataques adversariales. FS garantiza un límite inferior certificado en la similitud coseno de características bajo ataques acotados por $\ell_2$. La incorporación del módulo Purificador y Mapeador de Suavidad (PSM) mejora aún más la robustez sin necesidad de reentrenamiento. Los experimentos demuestran que FS-PSM reduce significativamente la Tasa de Éxito de Ataques, pasando de casi 90% a aproximadamente 1%, superando el rendimiento del entrenamiento adversarial tradicional en diversos MLLMs y tareas.

Nuevo Método Mejora la Robustez de Modelos de Lenguaje Grande Multimodales

La investigación sobre modelos de lenguaje grande multimodales (MLLMs) ha llevado a una nueva técnica destinada a contrarrestar las vulnerabilidades a ataques adversariales. El método de Suavizado en el Espacio de Características (FS) proporciona robustez certificada al garantizar representaciones de características estables, lo que mejora significativamente la resistencia de los modelos a las perturbaciones.

El método FS transforma cualquier codificador de características en una variante suavizada que garantiza un límite inferior certificado sobre la similitud coseno entre representaciones limpias y adversariales durante ataques con límite $\ell_2$, lo cual es crucial para mantener la integridad del modelo frente a amenazas adversariales.

Hallazgos Clave y Metodología

El Límite de Similitud Coseno de Características (FCSB) derivado de FS puede ser mejorado al aumentar la puntuación de robustez gaussiana del codificador original mediante el Purificador y el Mapeador de Suavidad (PSM), que incrementa la puntuación de robustez gaussiana sin necesidad de reentrenar los MLLMs.

La integración de FS y PSM demuestra un rendimiento empírico superior. Amplios experimentos revelan que el método FS-PSM reduce significativamente la Tasa de Éxito de Ataques (ASR) de múltiples ataques de caja blanca, pasando de casi el 90% a aproximadamente el 1%.

Temas relacionados:

Modelos de lenguaje multimodalSuavizado del Espacio de CaracterísticasRobustez certificadaLímite de Similitud Coseno de CaracterísticasPurificador y Mapeador de Suavidad

📰 Fuente original: https://arxiv.org/abs/2601.16200v1

Todos los derechos y créditos pertenecen al editor original.

Compartir este artículo

Twitter Facebook LinkedIn WhatsApp Reddit