Indagine sulla fattibilità dell'impiego di modelli linguistici multimodali nella rilevazione di deepfake audio

•

Autore originale:Akanksha Chuchra et al.

•

2 gennaio 2026

Indagine sulla fattibilità dell'impiego di modelli linguistici multimodali nella rilevazione di deepfake audio

Immagine generata da Gemini AI

Uno studio indaga l'uso dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) per la rilevazione di deepfake audio, un campo fino ad ora poco esplorato. Combinando input audio con suggerimenti testuali, i ricercatori hanno valutato due modelli, Qwen2-Audio-7B-Instruct e SALMONN, sia in modalità zero-shot che fine-tuned. I risultati indicano che, sebbene le prestazioni sui dati fuori dominio siano carenti, i modelli si distinguono in compiti all'interno del dominio con una supervisione minima, suggerendo una direzione promettente per migliorare la rilevazione di deepfake audio.

I Modelli Linguistici Multi-modali di Grandi Dimensioni Mostrano Promesse per il Riconoscimento di Deepfake Audio

Ricerche recenti sui Modelli Linguistici Multi-modali di Grandi Dimensioni (MLLM) hanno aperto nuove strade per il riconoscimento dei deepfake audio. Questo studio esamina l'efficacia degli MLLM integrando input audio con richieste testuali per migliorare le capacità di rilevamento.

Lo studio si concentra su due MLLM, Qwen2-Audio-7B-Instruct e SALMONN, valutando le loro prestazioni in modalità zero-shot e fine-tuned. I ricercatori hanno impiegato un approccio che combina dati audio con richieste testuali per migliorare l'apprendimento delle caratteristiche per il riconoscimento dei deepfake audio.

Risultati

Gli esperimenti hanno rivelato risultati misti:

Senze un addestramento specifico per il compito, i modelli hanno mostrato scarse prestazioni nel rilevamento dei deepfake audio.
Con una supervisione minima, i modelli hanno dimostrato una notevole efficacia nel rilevare deepfake audio in dominio, suggerendo che un addestramento mirato potrebbe migliorare le loro capacità.

I risultati suggeriscono che gli MLLM possono rilevare efficacemente i deepfake audio quando addestrati su dati pertinenti, ma le loro prestazioni dipendono fortemente dalla qualità del processo di addestramento.

Argomenti correlati:

modelli di linguaggio multimodalirilevazione di deepfake audioQwen2-Audio-7B-InstructSALMONNapprendimento robusto

📰 Fonte originale: https://arxiv.org/abs/2601.00777v1

Tutti i diritti e i crediti appartengono all'editore originale.

Condividi questo articolo

Twitter Facebook LinkedIn WhatsApp Reddit