[Paper] FACTS Leaderboard:大语言模型事实性综合基准

发布: (2025年12月12日 GMT+8 00:35)
7 min read
原文: arXiv

Source: arXiv - 2512.10791v1

概览

本文提出了 FACTS Leaderboard,一个全新、公开可用的基准套件,用于衡量大型语言模型(LLM)在各种真实任务中的事实准确性。通过统一四个互补的子基准——多模态问答、闭卷知识、检索增强回答和长文本依据——作者旨在为开发者提供一个单一、可靠的分数,以比较模型并跟踪事实性进展。

主要贡献

  • 统一的事实性套件:汇总四个独立子排行榜的表现,涵盖基于图像的问答、参数化知识、检索增强问答以及文档依据生成。
  • 自动评判流水线:每个子基准使用训练好的评判模型(而非昂贵的人类标注)实现大规模事实性评分。
  • Kaggle 公共排行榜:提供公开和隐藏测试集,既支持开放竞争,又防止过拟合。
  • 版本化的依据基准(v2):采用改进的评判模型,更好地检测长文本中的幻觉。
  • 持续维护计划:套件将随新数据和任务更新,鼓励长期社区参与。

方法论

  1. 数据集构建 – 作者策划了四个任务特定的数据集:

    • FACTS Multimodal:需要视觉推理的图像‑问题对。
    • FACTS Parametric:必须仅凭模型内部知识(不进行外部检索)回答的事实性问题。
    • FACTS Search:模型可以调用模拟搜索 API 并需综合检索片段的开放式查询。
    • FACTS Grounding (v2):长篇段落配对来源文档;模型必须生成可在提供文本中验证的答案。
  2. 自动评判器 – 对每个子基准,使用单独的分类器(通常是微调的 LLM)预测响应是否事实正确。这些评判器在混合了人工标注示例和合成扰动的数据上训练,以提升鲁棒性。

  3. 评分与聚合 – 各子基准的评判分数先在该子基准内部取平均,然后将四个平均值(简单算术平均)合并,得到整体 FACTS 套件分数。此设计平衡了不同模态和检索设置下的优势与不足。

  4. 排行榜基础设施 – 提交在 Kaggle 平台上评估。公开拆分提供即时反馈,隐藏拆分确保最终排名反映真实的泛化能力。

结果与发现

  • 最先进的 LLM(如 GPT‑4、PaLM‑2)在 ParametricSearch 子基准上取得高分,但在 MultimodalGrounding 上仍落后,说明视觉推理和长文本引用仍具挑战。
  • 检索增强模型在事实性上优于纯参数模型,证实外部知识源在正确使用时能够缓解幻觉。
  • 自动评判器与人类评判在留出验证集上的相关系数(Spearman ≈ 0.85)较高,表明评分流水线在大规模评估中是可靠的。

实际意义

  • 模型选择:开发者可使用 FACTS 套件分数作为单一指标,挑选最符合事实性需求的模型,而无需进行多项临时测试。
  • 产品监控:构建聊天机器人、搜索助手或文档分析工具的公司可以将该基准集成到 CI 流程中,在发布前捕获事实准确性的回归。
  • 微调指导:四个子基准揭示具体薄弱环节(如多模态推理),帮助团队针对性地收集数据或改进模型架构。
  • 检索增强设计Search 分数的明显优势鼓励在生产系统中采用检索模块(如 RAG、工具调用 API)以提升答案依据。
  • 社区标准:通过提供共享且持续更新的排行榜,研究社区获得统一的衡量尺度,减少碎片化评估,加速幻觉缓解的进展。

局限性与未来工作

  • 评判可靠性:尽管评判器与人类高度相关,但仍可能被细微的事实错误或对抗性表述欺骗,因而仍需偶尔进行人工审计。
  • 领域覆盖:当前数据集侧重通用知识和英语内容;未来计划扩展到专业领域(医学、法律)及其他语言。
  • 静态隐藏拆分:隐藏测试集虽能防止过拟合,但可能随时间陈旧,作者计划定期刷新以保持基准挑战性。
  • 多模态深度:视觉 QA 组件目前仅使用单图像问题;更丰富的多模态上下文(视频、表格)将在后续版本中加入。

FACTS Leaderboard 已在 Kaggle 上上线(https://www.kaggle.com/benchmarks/google/facts)。如果你正在构建基于 LLM 的产品,快来试一试,看看你的模型在全方位真实使用场景下的事实性表现如何。

作者

  • Aileen Cheng
  • Alon Jacovi
  • Amir Globerson
  • Ben Golan
  • Charles Kwong
  • Chris Alberti
  • Connie Tao
  • Eyal Ben‑David
  • Gaurav Singh Tomar
  • Lukas Haas
  • Yonatan Bitton
  • Adam Bloniarz
  • Aijun Bai
  • Andrew Wang
  • Anfal Siddiqui
  • Arturo Bajuelos Castillo
  • Aviel Atias
  • Chang Liu
  • Corey Fry
  • Daniel Balle
  • Deepanway Ghosal
  • Doron Kukliansky
  • Dror Marcus
  • Elena Gribovskaya
  • Eran Ofek
  • Honglei Zhuang
  • Itay Laish
  • Jan Ackermann
  • Lily Wang
  • Meg Risdal
  • Megan Barnes
  • Michael Fink
  • Mohamed Amin
  • Moran Ambar
  • Natan Potikha
  • Nikita Gupta
  • Nitzan Katz
  • Noam Velan
  • Ofir Roval
  • Ori Ram
  • Polina Zablotskaia
  • Prathamesh Bang
  • Priyanka Agrawal
  • Rakesh Ghiya
  • Sanjay Ganapathy
  • Simon Baumgartner
  • Sofia Erell
  • Sushant Prakash
  • Thibault Sellam
  • Vikram Rao
  • Xuanhui Wang
  • Yaroslav Akulov
  • Yulong Yang
  • Zhen Yang
  • Zhixin Lai
  • Zhongru Wu
  • Anca Dragan
  • Avinatan Hassidim
  • Fernando Pereira
  • Slav Petrov
  • Srinivasan Venkatachary
  • Tulsee Doshi
  • Yossi Matias
  • Sasha Goldshtein
  • Dipanjan Das

论文信息

  • arXiv ID: 2510.10791v1
  • 分类: cs.CL, cs.AI
  • 发表时间: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »