[Paper] 用于自动评估帮助读者进行新闻可信度评估的辅助RAG系统的资源
发布: (2026年2月28日 GMT+8 02:49)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.24277v1
概览
本文提出了一套全新的资源,用于评估 辅助检索增强生成(RAG)系统,帮助读者判断在线新闻的可信度。围绕 TREC 2025 DRAGUN 赛道,作者发布了数据集、评估标准以及自动评判工具,使研究人员和开发者能够轻松基准测试并改进此类系统。
关键贡献
- 两个可重用任务:
- 问题生成 – 系统必须为新闻文章输出一个排名的 10 个调查性问题列表。
- 报告生成 – 系统必须基于 MS MARCO V2.1 分段语料库生成一篇简洁(≈250 字)、有良好引用的报告。
- 人工制定的加权重要性评分标准,针对 30 篇新闻文章,定义评估文章可信度所需的“金标准”信息。
- AutoJudge,一个自动评估流水线,可根据评分标准对新系统运行进行打分,与原始 TREC 人类判断呈现高度相关(问题的 Kendall τ = 0.678,报告的 τ = 0.872)。
- 开源发布 所有数据、评分标准和评估代码,支持可复现的研究以及快速原型开发可信新闻辅助工具。
方法论
- 任务设计 – 参与者收到一篇新闻文章,并被要求 (a) 生成怀疑读者可能提出的调查性问题,(b) 综合一份简短报告,引用来自大型段落集合(MS MARCO)的证据。
- 人工评分标准创建 – TREC 评估员阅读每篇文章,识别出用于信任评估的最关键事实,并为每个问题撰写简短答案预期。每条评分标准条目都有一个重要性权重,反映该事实的关键程度。
- 人工评估 – 对于原始赛道,评估员将系统输出与评分标准进行比较,依据相关性、正确性和引用情况打分。
- 自动评判(AutoJudge) – 作者构建了一个流水线,包含:
- 从评分标准中检索预期的简短答案。
- 结合词汇重叠、语义相似度(通过预训练语言模型)和引用匹配来为系统输出打分。
- 汇总加权分数以生成最终排名。
- 相关性分析 – 他们使用 Kendall’s τ 衡量 AutoJudge 排名与人工排名的吻合程度,证明该自动指标是对人工评估的可靠代理。
结果与发现
- 问题生成:AutoJudge 的排名与人工排名的 τ = 0.678,表明尽管问题质量具有开放性,仍有良好的一致性。
- 报告生成:相关系数提升至 τ = 0.872,显示自动指标能够很好地捕捉事实依据和归属的细微差别。
- 可重用性:发布的评分标准和 AutoJudge 可评估任何新系统,无需重新进行人工评判,从而显著降低迭代开发的成本。
实际意义
- Developer Toolkits – 构建浏览器扩展、新闻聚合器或 AI 助手的团队可以接入 AutoJudge,自动基准测试其 RAG 模型在呈现关键信任相关信息方面的表现。
- Rapid Prototyping – 研究人员可以在提示策略、检索流水线或引用机制上反复迭代,并获得相对于人工验证基线的即时、可比反馈。
- Industry Standards – 希望添加“trust‑score”叠加层的媒体平台可以将基于评分标准的评估纳入其质量控制流程,确保 AI 生成的摘要既真实又透明。
- Educational Use – 新闻学院可以利用问题生成任务来教授学生如何审查来源,而报告生成评分标准则可作为事实核查工作流的检查清单。
限制与未来工作
- Scope of Rubrics – 仅有 30 篇文章被手动标注,这可能限制了对多样主题、语言和写作风格的覆盖。扩展评分标准集合将提升通用性。
- Reliance on MS MARCO – 将报告基于单一段落语料库进行依据可能导致系统偏向该来源;未来工作应探索多源依据(例如事实核查数据库、社交媒体流)。
- Semantic Evaluation Gaps – 虽然 AutoJudge 与人工评分相关性良好,但仍在细致推理或检测微妙偏见方面表现不足;引入更高级的推理模型或能弥补此缺口。
- User‑Centric Validation – 当前评估侧重于评估者的判断。通过现场研究测量读者在与辅助 RAG 输出交互后实际信任度,可为真实世界影响提供更有力的证据。
作者
- Dake Zhang
- Mark D. Smucker
- Charles L. A. Clarke
论文信息
- arXiv ID: 2602.24277v1
- 分类: cs.IR, cs.AI
- 发布时间: 2026年2月27日
- PDF: 下载 PDF