[Paper] 用于自动评估帮助读者进行新闻可信度评估的辅助RAG系统的资源

发布: 3天前 (2026年2月28日 GMT+8 02:49)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.24277v1

概览

本文提出了一套全新的资源，用于评估 辅助检索增强生成（RAG）系统，帮助读者判断在线新闻的可信度。围绕 TREC 2025 DRAGUN 赛道，作者发布了数据集、评估标准以及自动评判工具，使研究人员和开发者能够轻松基准测试并改进此类系统。

关键贡献

两个可重用任务：
1. 问题生成 – 系统必须为新闻文章输出一个排名的 10 个调查性问题列表。
2. 报告生成 – 系统必须基于 MS MARCO V2.1 分段语料库生成一篇简洁（≈250 字）、有良好引用的报告。
人工制定的加权重要性评分标准，针对 30 篇新闻文章，定义评估文章可信度所需的“金标准”信息。
AutoJudge，一个自动评估流水线，可根据评分标准对新系统运行进行打分，与原始 TREC 人类判断呈现高度相关（问题的 Kendall τ = 0.678，报告的 τ = 0.872）。
开源发布 所有数据、评分标准和评估代码，支持可复现的研究以及快速原型开发可信新闻辅助工具。

方法论

任务设计 – 参与者收到一篇新闻文章，并被要求 (a) 生成怀疑读者可能提出的调查性问题，(b) 综合一份简短报告，引用来自大型段落集合（MS MARCO）的证据。
人工评分标准创建 – TREC 评估员阅读每篇文章，识别出用于信任评估的最关键事实，并为每个问题撰写简短答案预期。每条评分标准条目都有一个重要性权重，反映该事实的关键程度。
人工评估 – 对于原始赛道，评估员将系统输出与评分标准进行比较，依据相关性、正确性和引用情况打分。
自动评判（AutoJudge） – 作者构建了一个流水线，包含：
- 从评分标准中检索预期的简短答案。
- 结合词汇重叠、语义相似度（通过预训练语言模型）和引用匹配来为系统输出打分。
- 汇总加权分数以生成最终排名。
相关性分析 – 他们使用 Kendall’s τ 衡量 AutoJudge 排名与人工排名的吻合程度，证明该自动指标是对人工评估的可靠代理。

结果与发现

问题生成：AutoJudge 的排名与人工排名的 τ = 0.678，表明尽管问题质量具有开放性，仍有良好的一致性。
报告生成：相关系数提升至 τ = 0.872，显示自动指标能够很好地捕捉事实依据和归属的细微差别。
可重用性：发布的评分标准和 AutoJudge 可评估任何新系统，无需重新进行人工评判，从而显著降低迭代开发的成本。

实际意义

Developer Toolkits – 构建浏览器扩展、新闻聚合器或 AI 助手的团队可以接入 AutoJudge，自动基准测试其 RAG 模型在呈现关键信任相关信息方面的表现。
Rapid Prototyping – 研究人员可以在提示策略、检索流水线或引用机制上反复迭代，并获得相对于人工验证基线的即时、可比反馈。
Industry Standards – 希望添加“trust‑score”叠加层的媒体平台可以将基于评分标准的评估纳入其质量控制流程，确保 AI 生成的摘要既真实又透明。
Educational Use – 新闻学院可以利用问题生成任务来教授学生如何审查来源，而报告生成评分标准则可作为事实核查工作流的检查清单。

限制与未来工作

Scope of Rubrics – 仅有 30 篇文章被手动标注，这可能限制了对多样主题、语言和写作风格的覆盖。扩展评分标准集合将提升通用性。
Reliance on MS MARCO – 将报告基于单一段落语料库进行依据可能导致系统偏向该来源；未来工作应探索多源依据（例如事实核查数据库、社交媒体流）。
Semantic Evaluation Gaps – 虽然 AutoJudge 与人工评分相关性良好，但仍在细致推理或检测微妙偏见方面表现不足；引入更高级的推理模型或能弥补此缺口。
User‑Centric Validation – 当前评估侧重于评估者的判断。通过现场研究测量读者在与辅助 RAG 输出交互后实际信任度，可为真实世界影响提供更有力的证据。

作者

Dake Zhang
Mark D. Smucker
Charles L. A. Clarke

论文信息

arXiv ID: 2602.24277v1
分类: cs.IR, cs.AI
发布时间: 2026年2月27日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] Mode Seeking 与 Mean Seeking 相结合，实现快速长视频生成

将 video generation 从秒级扩展到分钟级面临一个关键瓶颈：虽然 short‑video 数据丰富且 high‑fidelity，但 coherent long‑form 数据却是……

[Paper] LLM 能从自己的话语中受益吗？

多轮交互与大型语言模型通常会在对话历史中保留助手自身的过去回复。在本工作中，我们重新审视……

[Paper] 驯服动量：通过低秩近似重新思考优化器状态

现代优化器如 Adam 和 Muon 在训练大语言模型中起着核心作用，但它们对一阶和二阶动量的依赖会引入显著的……

[论文] 记忆缓存：RNNs with 增长记忆

Transformer 已被确立为最近序列建模进展的事实标准骨干，主要是因为它们不断增长的记忆容量能够扩展……