AI
KI-Nachrichten

Robuste Erkennung von Fake News mithilfe großer Sprachmodelle unter adversarialen Sentimentangriffen

Source:arXiv
Originalautor:Sahar Tahmasebi et al.
Robuste Erkennung von Fake News mithilfe großer Sprachmodelle unter adversarialen Sentimentangriffen

Von Gemini AI generiertes Bild

Forscher haben AdSent entwickelt, ein neues Framework zur Verbesserung der Erkennung von Fake News, das gezielt der Manipulation von Emotionen entgegenwirkt – einer Schwachstelle, die durch große Sprachmodelle offengelegt wurde. Die Studie zeigt, dass eine Veränderung der Emotionen die Erkennungsgenauigkeit erheblich beeinflusst und dabei neutrale Artikel als authentisch bevorzugt werden. AdSent nutzt eine sentimentunabhängige Trainingsstrategie und übertrifft bestehende Modelle in Bezug auf Robustheit und Genauigkeit über verschiedene Datensätze hinweg.

Neues Framework verbessert die Erkennung von Fake News im Angesicht von Sentiment-Manipulation

Forschungen haben ein neues Framework, AdSent, vorgestellt, das darauf abzielt, die Effektivität von Mechanismen zur Erkennung von Fake News gegen Taktiken zur Sentiment-Manipulation zu stärken. Diese Entwicklung reagiert auf die zunehmende Raffinesse der Desinformationsstrategien, die große Sprachmodelle (LLMs) nutzen, um das Sentiment in Nachrichtenartikeln zu verändern.

Frühere Studien haben festgestellt, dass das Sentiment ein wichtiges Indiz zur Identifizierung von Fake News ist, aber diese Abhängigkeit offenbart Schwächen, da Gegner Sentiment-Hinweise ausnutzen können, um Erkennungssysteme zu umgehen. Während einige Forschungsarbeiten sich mit adversarialen Beispielen beschäftigen, die von LLMs generiert werden, lag der Schwerpunkt hauptsächlich auf stilistischen Elementen und weniger auf der Manipulation von Sentiment.

Überblick über das AdSent-Framework

  • Kontrollierte Sentiment-basierte adversariale Angriffe: AdSent generiert adversariale Proben, die gezielt auf Sentiment-Veränderungen abzielen und Einblicke geben, wie sich Sentiment-Verschiebungen auf die Erkennungsleistung auswirken.
  • Wirkungsanalyse: Modifikationen im Sentiment beeinflussen die Leistung von Systemen zur Erkennung von Fake News erheblich, wobei neutrale Artikel häufiger als echt klassifiziert werden, während nicht-neutrale Sentiments oft als fake identifiziert werden.
  • Sentiment-agnostische Trainingsstrategie: AdSent verwendet eine Trainingsstrategie, die den Einfluss von Sentiment auf die Erkennungsergebnisse minimiert.

Leistung und Generalisierung

Umfangreiche Experimente zeigen, dass AdSent bestehende Wettbewerbs-Baselines in der Genauigkeit übertrifft und die Robustheit verbessert, indem es effektiv auf ungesehene Datensätze und verschiedene adversariale Szenarien verallgemeinert.

Verwandte Themen:

Fake Newsgroße SprachmodelleSentiment-ManipulationErkennungssystemeAdSent

📰 Originalquelle: https://arxiv.org/abs/2601.15277v1

Alle Rechte und Urheberrechte liegen beim ursprünglichen Herausgeber.

Artikel teilen