[Paper] TAGFN:在大语言模型时代用于假新闻检测的文本属性图数据集

发布: (2025年11月27日 GMT+8 01:49)
7 min read
原文: arXiv

Source: arXiv - 2511.21624v1

概览

本文介绍了 TAGFN,一个专为假新闻检测构建的大规模文本属性图数据集。通过将丰富的文本内容与图结构(例如社交媒体交互、文章引用)相结合,TAGFN 为研究者提供了一个真实的基准,用于测试传统的基于图的异常检测器以及最新的 大语言模型(LLM)增强方法。

主要贡献

  • 首个面向假新闻领域的图异常检测数据集,包含数百万节点、边以及高质量标注。
  • 统一评估框架,在同一实验协议下支持传统图算法、图神经网络(GNN)以及 LLM 增强模型。
  • 微调流水线,用于将 LLM(如 GPT‑4、LLaMA)适配到假新闻检测任务,利用图的文本属性。
  • 开源发布 数据集(通过 Hugging Face)和配套代码,鼓励可复现性和社区贡献。

方法论

  1. 数据收集 – 作者从多个公共平台(如 Twitter、Reddit)抓取新闻文章、其元数据以及用户交互的社交图。每篇文章成为一个节点,拥有 文本属性(文章正文)和 元数据属性(出版社、时间戳等)。边表示 “同一用户分享”、 “引用” 或 “回复” 等关系。
  2. 标注 – 通过已验证的事实核查来源(如 PolitiFact、Snopes)将文章标记为 真实虚假。标注过程半自动化,随后人工审查以确保高精度。
  3. 图构建 – 构建异构图,保留不同的边类型,使模型能够同时学习结构模式(如回音室聚类)和文本线索。
  4. 基准设计 – 数据集划分为训练/验证/测试集用于监督学习,同时提供一个 无监督 异常检测划分,仅有少量节点被标记。
  5. 基线实现 – 作者评估了经典异常检测器(如 LOF、Isolation Forest)、基于 GNN 的方法(如 GraphSAGE、GAT)以及将冻结的 LLM 节点嵌入与图嵌入拼接的 LLM 增强流水线。

结果与发现

模型设置ROC‑AUCPrecision@100备注
Isolation Forest(仅特征)无监督0.710.42缺少图上下文时表现不佳
GraphSAGE监督0.840.68结构线索带来提升
GAT + 文本嵌入(BERT)监督0.880.73对邻居的注意力有帮助
LLM‑微调(LLaMA‑7B)+ GraphSAGE监督0.920.81LLM 提供更丰富的语义信号
LLM‑零样本提示无监督0.780.55在无需微调的情况下仍具竞争力
  • LLM 增强模型始终优于纯图或纯文本基线,验证了大规模语言理解对图异常检测的价值。
  • 无监督 LLM 提示(例如 “这篇文章可能是假的?”)已经超过了许多经典检测器,显示出在低资源场景下的潜力。
  • 异构边类型(用户分享 vs. 引用)贡献不同;用户分享边是聚类假新闻的最强信号。

实际意义

  • 误信息处理流水线:构建实时事实核查工具的公司可以将基于 TAGFN 训练的模型嵌入内容审核系统,利用社交图动态和文章语义。
  • LLM 微调用于领域安全:提供的微调脚本使开发者能够用极少的标注数据将任意开源 LLM 适配为假新闻检测,降低对昂贵人工标注的依赖。
  • 图感知推荐系统:平台可以使用异常分数在内容传播前对可疑信息进行降排或标记,提升用户信任。
  • 研究与产品团队的基准:TAGFN 为评估新型 GNN 架构、图对比学习或 LLM 提示工程策略提供了可复现的测试平台。

局限性与未来工作

  • 时间偏差:数据集捕获了特定时期的新闻快照,随着话题和操纵手段演变,模型性能可能下降。
  • 平台覆盖:虽然 Twitter 和 Reddit 代表性强,但其他渠道(如私密聊天应用)缺失,限制了泛化能力。
  • 标签噪声:即使使用事实核查来源,仍有部分边缘案例模糊,可能影响监督训练。
  • LLM 微调的可扩展性:对大模型(≥13B 参数)进行微调仍需大量 GPU 资源,对小团队可能构成障碍。

作者建议的未来方向包括:为 TAGFN 添加 时间边、引入 多语言新闻,以及探索 提示微调 技术,以更少的计算资源实现 LLM 级别的性能。


如果你有兴趣尝试 TAGFN,数据集和代码已可从 Hugging Face 与 GitHub 克隆。快来探索,你可能会成为在可信 AI 与假新闻斗争前沿的下一位推动者。

作者

  • Kay Liu
  • Yuwei Han
  • Haoyan Xu
  • Henry Peng Zou
  • Yue Zhao
  • Philip S. Yu

论文信息

  • arXiv ID: 2511.21624v1
  • 分类: cs.SI, cs.CL
  • 发布日期: 2025年11月26日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »