Robustez Provável em Modelos de Linguagem Multimodais de Grande Escala Através do Suavização do Espaço de Características

Imagem gerada por Gemini AI
Uma nova abordagem chamada Suavização no Espaço de Características (Feature-space Smoothing, FS) foi proposta para aumentar a robustez de modelos de linguagem multimodais de grande porte (MLLMs) contra ataques adversariais. A técnica FS garante um limite inferior certificado na similaridade cosseno das características sob ataques limitados por $\ell_2$. A adição do módulo Purificador e Mapeador de Suavidade (PSM) melhora ainda mais a robustez sem a necessidade de retrainamento. Experimentos demonstram que o FS-PSM reduz significativamente a Taxa de Sucesso de Ataques de quase 90% para cerca de 1%, superando o treinamento adversarial tradicional em diversos MLLMs e tarefas.
Nova Método Aumenta a Robustez de Modelos de Linguagem Grande Multimodal
A pesquisa sobre modelos de linguagem grande multimodal (MLLMs) levou a uma nova técnica destinada a combater vulnerabilidades a ataques adversariais. O método de Suavização do Espaço de Características (FS) proporciona robustez certificada ao garantir representações de características estáveis, aumentando significativamente a resistência dos modelos a perturbações.
O método FS transforma qualquer codificador de características em uma variante suavizada que garante um limite inferior certificado na similaridade cosseno entre representações limpas e adversariais durante ataques limitados por $\ell_2$, o que é crucial para manter a integridade do modelo contra ameaças adversariais.
Principais Descobertas e Metodologia
O Limite de Similaridade Cosseno de Características (FCSB) derivado do FS pode ser aprimorado ao aumentar a pontuação de robustez gaussiana do codificador original através do Purificador e Mapeador de Suavidade (PSM), que eleva a pontuação de robustez gaussiana sem a necessidade de re-treinar os MLLMs.
A integração do FS e PSM demonstra desempenho empírico superior. Experimentos extensivos revelam que o método FS-PSM reduz significativamente a Taxa de Sucesso do Ataque (ASR) de múltiplos ataques de caixa branca, caindo de quase 90% para aproximadamente 1%.
Tópicos relacionados:
📰 Fonte original: https://arxiv.org/abs/2601.16200v1
Todos os direitos e créditos pertencem ao editor original.