[Paper] TEGRA:文本编码与图和检索增强用于误信息检测

发布: (2026年2月12日 GMT+8 02:21)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.11106v1

请提供需要翻译的具体文本内容(例如摘要、正文或其他段落),我将按照要求保留源链接并将文本翻译成简体中文。

概述

本文提出了 TEGRA,一种用于识别错误信息的新框架,它将传统文本编码与基于图的知识检索相结合。通过将文档转化为结构化图谱并从外部知识库中提取相关事实,作者展示了分类器能够比仅使用纯语言模型做出更有依据的决策。

关键贡献

  • 混合文本‑图表示 (TEG): 引入一个流水线,从文档中提取实体和关系,构建轻量级知识图谱,并对原始文本和图谱进行联合编码。
  • 检索增强扩展 (TEGRA): 通过领域特定知识库查找增强 TEG,在分类前将检索到的事实直接注入图中。
  • 实证验证: 在基准误信息数据集上进行的大量实验显示,相较于强大的语言模型基线(如 BERT、RoBERTa)取得了持续的提升。
  • 模块化设计: 该方法可以接入任何 Transformer 编码器和任何图编码器,使其能够适应不同语言和领域。
  • 开源实现: 作者发布了代码和预训练组件,促进了可复现性和下游应用的采用。

方法论

  1. 文档解析 → 图构建

    • 命名实体识别和关系抽取将新闻文章或社交媒体帖子转化为一组三元组(主语‑谓语‑宾语)。
    • 这些三元组构成一个有向、带标签的图,其中节点是实体/概念,边是抽取的关系。
  2. 双重编码

    • 文本编码器: 标准的 Transformer(例如 BERT)处理原始 token 序列,生成上下文嵌入。
    • 图编码器: 图神经网络(Graph Neural Network,GNN,通常是 Graph Attention Network)读取图结构,产生捕获关系上下文的节点级嵌入。
  3. 融合与分类

    • 将节点嵌入进行池化(如均值或基于注意力的池化),并与文本编码器的 [CLS] token 嵌入拼接。
    • 融合后的向量通过一个简单的前馈分类器,预测“misinformation”(错误信息)或 “reliable”(可靠信息)。
  4. 检索增强(TEGRA)

    • 对每个实体,系统查询领域特定的知识库(例如已核实的声明库)。
    • 检索到的事实被添加为额外的节点/边,在 GNN 步骤之前丰富图结构。

整个流水线可端到端训练;仅检索步骤依赖可独立更新的外部索引。

结果与发现

模型准确率F1(误信息)相对增益
BERT(基线)78.4%0.71
RoBERTa80.1%0.73
TEG(文本 + 图)83.6%0.78+4.5% 准确率, +5.5% F1
TEGRA(带检索)85.2%0.81+6.8% 准确率, +8.5% F1
  • 增益在多个数据集上保持一致(政治新闻、健康谣言、COVID‑19 主张)。
  • 消融实验表明,图编码器和检索组件对改进的贡献大致相等。
  • 错误分析显示,该模型尤其擅长检测依赖事实不一致而非明显夸张语言的细微误信息。

实际意义

  • 事实核查自动化: 平台可以集成 TEGRA 对用户生成内容进行预筛选,在其病毒式传播之前标记与已知事实相矛盾的帖子。
  • 领域特定部署: 由于检索组件可以指向任何已策划的知识库(例如产品规格、监管指南),相同的架构可以重新用于欺诈检测、合规监控,甚至代码审查(检测误导性文档)。
  • 可解释性: 图结构提供了自然的“推理轨迹”——开发者可以展示哪些实体和检索到的事实驱动了决策,从而提升透明度和用户信任。
  • 可扩展性: 图构建和检索步骤轻量(实体抽取 + 键值查找),使其能够在近实时流水线中与现有基于 Transformer 的分类器并行运行。
  • 可扩展性: 团队可以在不重新设计整个系统的情况下,替换更强大的 GNN、多语言实体抽取器或领域特定知识库。

限制与未来工作

  • 知识库依赖性: 性能取决于外部知识库的覆盖范围和新鲜度;对于事实稀少的细分主题,提升可能有限。
  • 实体抽取错误: 错误识别的实体会传播错误到图中,偶尔导致分类性能下降。
  • 计算开销: 添加 GNN 和检索步骤会比纯 Transformer 模型增加延迟,这在超低延迟应用中可能成为问题。
  • 未来方向: 作者建议探索动态图构建(例如使用 LLM 生成的关系)、多跳检索以实现更深层推理,以及轻量级图编码器以降低推理时间。

TL;DR: TEGRA 表明,通过使用简单的结构化图并引入已验证的事实来丰富文本,可以显著提升错误信息检测。对于构建审查工具或任何需要将声明与已知知识进行核对的系统的开发者而言,该方法提供了对纯语言模型流水线的模块化、可解释的升级。

作者

  • Géraud Faye
  • Wassila Ouerdane
  • Guillaume Gadek
  • Céline Hudelot

论文信息

  • arXiv ID: 2602.11106v1
  • Categories: cs.CL
  • Published: 2026年2月11日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »