[Paper] LLM 能否提取类似人类的细粒度证据用于基于证据的事实核查?
发布: (2025年11月26日 GMT+8 21:51)
6 min read
原文: arXiv
Source: arXiv - 2511.21401v1
概览
误信息常在在线新闻文章的评论区传播,事实核查员需要的不仅是“是/否”的判定——他们需要可靠来源的具体证据来支持或驳斥每个主张。本文针对捷克语和斯洛伐克语主张的细粒度证据抽取问题,构建了一个全新人为标注的数据集,并测试了当前大型语言模型(LLM)在复现人工选取的精确证据跨度方面的表现。
主要贡献
- 全新多语言数据集:针对捷克语和斯洛伐克语主张的二分类(支持/反驳)细粒度证据标注,由付费标注员完成并对外发布供研究使用。
- 全面的 LLM 基准:对八种开源 LLM(参数规模从 8 B 到 120 B)在证据抽取任务上的评估。
- 错误类型分析:识别最常见的失效模式(如改写而非逐字复制、遗漏跨度、幻觉证据)。
- 规模与对齐的洞见:展示了一个 modest 的 8 B 模型(llama3.1‑8B)在匹配人工选取证据方面可以超越更大模型(gpt‑oss‑120B)。
- 实用指南:指出哪些模型系列(Qwen‑3、DeepSeek‑R1、GPT‑OSS‑20B)在参数量与证据抽取质量之间取得最佳平衡。
方法论
-
数据集构建
- 从捷克语和斯洛伐克语新闻文章的评论线程中收集真实世界的主张。
- 对每个主张检索一组候选文档(新闻稿、事实核查站点等)。
- 付费标注员标记直接支持或驳斥主张的文本跨度,生成二元“支持/反驳”标签以及跨度边界。
-
模型提示
- 每个 LLM 接收包含主张和检索到的源文档的提示。
- 任务表述为:“提取支持或驳斥该主张的精确句子”。
- 未使用链式思考或 few‑shot 示例,保持各模型设置可比。
-
评估指标
- Exact Match (EM):模型输出是否与人工标注的跨度完全一致?
- F1 over token overlap:当模型捕获了大部分跨度时给予部分分数。
- Invalid‑output rate:模型返回改写、摘要或根本未返回跨度的比例。
-
错误分析
- 将不匹配划分为“复制错误”“跨度偏移”“幻觉”和“无输出”。
结果与发现
| Model (size) | Exact Match | F1 | Invalid‑output |
|---|---|---|---|
| llama3.1‑8B | 38 % | 62 % | 12 % |
| qwen3‑14B | 35 % | 60 % | 14 % |
| deepseek‑r1‑32B | 34 % | 59 % | 15 % |
| gpt‑oss‑20B | 33 % | 58 % | 16 % |
| gpt‑oss‑120B | 27 % | 53 % | 28 % |
- 复制忠实度重要:最大错误来源是模型对证据进行改写而非逐字复制,这在评估中受到严厉惩罚。
- 规模并非全部:8 B 的 llama3.1 模型取得最高的 Exact Match 率,而 120 B 的 GPT‑OSS 模型因高 Invalid‑output 率表现不佳,说明对齐度和训练数据质量比单纯参数量更关键。
- 平衡表现:Qwen‑3‑14B、DeepSeek‑R1‑32B 与 GPT‑OSS‑20B 在保持相对较高的 Exact Match 的同时,Invalid‑output 率也保持在较低水平,形成了性价比最佳的组合。
实际意义
- 事实核查流水线:将能够可靠抽取逐字证据的 LLM 融入系统,可自动化“证据收集”环节,让人工审阅者专注于更高层次的推理。
- 多语言监管工具:数据集和实验结果表明,对捷克语、斯洛伐克语等资源相对匮乏的语言进行有效证据抽取是可行的,鼓励开发者将监管机器人扩展至非英语环境。
- 模型选择指南:对于构建基于证据的验证服务的团队而言,选择对齐良好的中等规模模型(如 Qwen‑3‑14B)往往比部署庞大但对齐不足的模型更具 ROI。
- 提示工程:研究强调需要明确要求精确跨度的提示,或结合后处理检查(如与源文档的字符串匹配)以过滤掉改写输出。
局限性与未来工作
- 领域限制:数据集聚焦于新闻文章评论;在社交媒体、论坛或长篇文本上的表现可能不同。
- 评估偏差:Exact Match 评分对保留事实内容的合法改写惩罚过重,可能低估了模型的实际有用性。
- 模型多样性:仅测试了开源 LLM,专有模型(如 Claude、Gemini)可能表现不同。
未来方向
- 将数据集扩展至更多斯拉夫语种及更广泛的领域。
- 探索将 LLM 抽取与检索增强生成相结合的混合方法,以提升复制忠实度。
- 设计专门奖励逐字证据复制的训练目标,降低改写错误的出现率。
作者
- Antonín Jarolím
- Martin Fajčík
- Lucia Makaiová
论文信息
- arXiv ID: 2511.21401v1
- Categories: cs.CL
- Published: November 26, 2025
- PDF: Download PDF