Investigação da Viabilidade da Utilização de Modelos de Linguagem Grande Multimodais no Contexto da Detecção de Deepfakes de Áudio

•

Autor original:Akanksha Chuchra et al.

•

2 de janeiro de 2026

Investigação da Viabilidade da Utilização de Modelos de Linguagem Grande Multimodais no Contexto da Detecção de Deepfakes de Áudio

Imagem gerada por Gemini AI

Um estudo investiga o uso de Modelos de Linguagem Multimodal de Grande Escala (MLLMs) para a detecção de deepfakes de áudio, uma área que até então era pouco explorada. Ao combinar entradas de áudio com prompts textuais, os pesquisadores avaliaram dois modelos, Qwen2-Audio-7B-Instruct e SALMONN, em modos zero-shot e ajustados. Os resultados indicam que, embora o desempenho em dados fora do domínio seja insatisfatório, os modelos se destacam em tarefas dentro do domínio com supervisão mínima, sugerindo uma direção promissora para aprimorar a detecção de deepfakes de áudio.

Modelos de Linguagem Grande Multi-modal Mostram Potencial para Detecção de Deepfakes de Áudio

Pesquisas recentes sobre Modelos de Linguagem Grande Multi-modal (MLLMs) abriram novas avenidas para a detecção de deepfakes de áudio. Este estudo investiga a eficácia dos MLLMs ao integrar entradas de áudio com prompts de texto para aprimorar as capacidades de detecção.

O estudo foca em dois MLLMs, Qwen2-Audio-7B-Instruct e SALMONN, avaliando seu desempenho em modos zero-shot e ajustados. Os pesquisadores empregaram uma abordagem que combina dados de áudio com prompts de texto para melhorar o aprendizado de características na detecção de deepfakes de áudio.

Resultados

Os experimentos revelaram resultados mistos:

Sem treinamento específico para a tarefa, os modelos apresentaram um desempenho ruim na detecção de deepfakes de áudio.
Com supervisão mínima, os modelos mostraram uma eficácia significativa na detecção de deepfakes de áudio em domínio específico, sugerindo que um treinamento direcionado poderia aprimorar sua capacidade.

Os achados sugerem que os MLLMs podem detectar efetivamente deepfakes de áudio quando treinados com dados relevantes, mas seu desempenho depende fortemente da qualidade do processo de treinamento.

Tópicos relacionados:

Modelos de Linguagem MultimodalDetecção de DeepfakesÁudioAprendizado RobustoPrompts Textuais

📰 Fonte original: https://arxiv.org/abs/2601.00777v1

Todos os direitos e créditos pertencem ao editor original.

Compartilhar este artigo

Twitter Facebook LinkedIn WhatsApp Reddit