AI
AI新闻

在对抗性情感攻击下,使用大型语言模型进行强有力的假新闻检测

Source:arXiv
原作者:Sahar Tahmasebi et al.
在对抗性情感攻击下,使用大型语言模型进行强有力的假新闻检测

Gemini AI生成的图像

研究人员开发了AdSent,这是一种新框架,旨在通过对抗情感操控来提升假新闻检测的效果,这一脆弱性是大型语言模型暴露出来的。研究表明,情感的改变对检测准确性有显著影响,使得中立文章更容易被误判为真实新闻。AdSent采用了无关情感的训练策略,在各种数据集上展现出比现有模型更强的鲁棒性和准确性。

新框架增强假新闻检测应对情感操控

研究揭示了一个新框架AdSent,旨在增强假新闻检测机制对情感操控策略的有效性。此项发展响应了虚假信息策略日益复杂化的趋势,这些策略利用大型语言模型(LLMs)来改变新闻文章中的情感。

先前的研究已将情感确立为识别假新闻的重要指标,但这种依赖暴露了漏洞,因为对手可以利用情感线索来绕过检测系统。尽管一些研究考察了LLMs生成的对抗样本,但重点主要集中在风格元素而非情感操控上。

AdSent框架概述

  • 基于情感控制的对抗攻击:AdSent生成专门针对情感变化的对抗样本,提供情感变化如何影响检测性能的见解。
  • 影响分析:情感的变化显著影响假新闻检测系统的性能,中性文章更常被分类为真实,而非中性情感则常被识别为假新闻。
  • 与情感无关的训练策略:AdSent采用一种训练策略,最小化情感对检测结果的影响。

性能与泛化能力

大量实验表明,AdSent在准确性上超越现有的竞争基准,并提高了系统的鲁棒性,能够有效地在未见数据集和各种对抗场景中进行泛化。

相关主题:

虚假新闻检测大型语言模型情感操控AdSent稳健性

📰 原始来源: https://arxiv.org/abs/2601.15277v1

所有权利和署名均属于原出版商。

分享此文章