[Paper] TEGRA：文本编码与图和检索增强用于误信息检测

发布: 3天前 (2026年2月12日 GMT+8 02:21)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.11106v1

请提供需要翻译的具体文本内容（例如摘要、正文或其他段落），我将按照要求保留源链接并将文本翻译成简体中文。

概述

本文提出了 TEGRA，一种用于识别错误信息的新框架，它将传统文本编码与基于图的知识检索相结合。通过将文档转化为结构化图谱并从外部知识库中提取相关事实，作者展示了分类器能够比仅使用纯语言模型做出更有依据的决策。

文档解析 → 图构建
- 命名实体识别和关系抽取将新闻文章或社交媒体帖子转化为一组三元组（主语‑谓语‑宾语）。
- 这些三元组构成一个有向、带标签的图，其中节点是实体/概念，边是抽取的关系。
双重编码
- 文本编码器： 标准的 Transformer（例如 BERT）处理原始 token 序列，生成上下文嵌入。
- 图编码器： 图神经网络（Graph Neural Network，GNN，通常是 Graph Attention Network）读取图结构，产生捕获关系上下文的节点级嵌入。
融合与分类
- 将节点嵌入进行池化（如均值或基于注意力的池化），并与文本编码器的 [CLS] token 嵌入拼接。
- 融合后的向量通过一个简单的前馈分类器，预测“misinformation”（错误信息）或 “reliable”（可靠信息）。
检索增强（TEGRA）
- 对每个实体，系统查询领域特定的知识库（例如已核实的声明库）。
- 检索到的事实被添加为额外的节点/边，在 GNN 步骤之前丰富图结构。

整个流水线可端到端训练；仅检索步骤依赖可独立更新的外部索引。

模型	准确率	F1（误信息）	相对增益
BERT（基线）	78.4%	0.71	—
RoBERTa	80.1%	0.73	—
TEG（文本 + 图）	83.6%	0.78	+4.5% 准确率, +5.5% F1
TEGRA（带检索）	85.2%	0.81	+6.8% 准确率, +8.5% F1

事实核查自动化： 平台可以集成 TEGRA 对用户生成内容进行预筛选，在其病毒式传播之前标记与已知事实相矛盾的帖子。
领域特定部署： 由于检索组件可以指向任何已策划的知识库（例如产品规格、监管指南），相同的架构可以重新用于欺诈检测、合规监控，甚至代码审查（检测误导性文档）。
可解释性： 图结构提供了自然的“推理轨迹”——开发者可以展示哪些实体和检索到的事实驱动了决策，从而提升透明度和用户信任。
可扩展性： 图构建和检索步骤轻量（实体抽取 + 键值查找），使其能够在近实时流水线中与现有基于 Transformer 的分类器并行运行。
可扩展性： 团队可以在不重新设计整个系统的情况下，替换更强大的 GNN、多语言实体抽取器或领域特定知识库。

TL;DR: TEGRA 表明，通过使用简单的结构化图并引入已验证的事实来丰富文本，可以显著提升错误信息检测。对于构建审查工具或任何需要将声明与已知知识进行核对的系统的开发者而言，该方法提供了对纯语言模型流水线的模块化、可解释的升级。