[Paper] FACTS Leaderboard:大语言模型事实性综合基准
Source: arXiv - 2512.10791v1
概览
本文提出了 FACTS Leaderboard,一个全新、公开可用的基准套件,用于衡量大型语言模型(LLM)在各种真实任务中的事实准确性。通过统一四个互补的子基准——多模态问答、闭卷知识、检索增强回答和长文本依据——作者旨在为开发者提供一个单一、可靠的分数,以比较模型并跟踪事实性进展。
主要贡献
- 统一的事实性套件:汇总四个独立子排行榜的表现,涵盖基于图像的问答、参数化知识、检索增强问答以及文档依据生成。
- 自动评判流水线:每个子基准使用训练好的评判模型(而非昂贵的人类标注)实现大规模事实性评分。
- Kaggle 公共排行榜:提供公开和隐藏测试集,既支持开放竞争,又防止过拟合。
- 版本化的依据基准(v2):采用改进的评判模型,更好地检测长文本中的幻觉。
- 持续维护计划:套件将随新数据和任务更新,鼓励长期社区参与。
方法论
-
数据集构建 – 作者策划了四个任务特定的数据集:
- FACTS Multimodal:需要视觉推理的图像‑问题对。
- FACTS Parametric:必须仅凭模型内部知识(不进行外部检索)回答的事实性问题。
- FACTS Search:模型可以调用模拟搜索 API 并需综合检索片段的开放式查询。
- FACTS Grounding (v2):长篇段落配对来源文档;模型必须生成可在提供文本中验证的答案。
-
自动评判器 – 对每个子基准,使用单独的分类器(通常是微调的 LLM)预测响应是否事实正确。这些评判器在混合了人工标注示例和合成扰动的数据上训练,以提升鲁棒性。
-
评分与聚合 – 各子基准的评判分数先在该子基准内部取平均,然后将四个平均值(简单算术平均)合并,得到整体 FACTS 套件分数。此设计平衡了不同模态和检索设置下的优势与不足。
-
排行榜基础设施 – 提交在 Kaggle 平台上评估。公开拆分提供即时反馈,隐藏拆分确保最终排名反映真实的泛化能力。
结果与发现
- 最先进的 LLM(如 GPT‑4、PaLM‑2)在 Parametric 和 Search 子基准上取得高分,但在 Multimodal 与 Grounding 上仍落后,说明视觉推理和长文本引用仍具挑战。
- 检索增强模型在事实性上优于纯参数模型,证实外部知识源在正确使用时能够缓解幻觉。
- 自动评判器与人类评判在留出验证集上的相关系数(Spearman ≈ 0.85)较高,表明评分流水线在大规模评估中是可靠的。
实际意义
- 模型选择:开发者可使用 FACTS 套件分数作为单一指标,挑选最符合事实性需求的模型,而无需进行多项临时测试。
- 产品监控:构建聊天机器人、搜索助手或文档分析工具的公司可以将该基准集成到 CI 流程中,在发布前捕获事实准确性的回归。
- 微调指导:四个子基准揭示具体薄弱环节(如多模态推理),帮助团队针对性地收集数据或改进模型架构。
- 检索增强设计:Search 分数的明显优势鼓励在生产系统中采用检索模块(如 RAG、工具调用 API)以提升答案依据。
- 社区标准:通过提供共享且持续更新的排行榜,研究社区获得统一的衡量尺度,减少碎片化评估,加速幻觉缓解的进展。
局限性与未来工作
- 评判可靠性:尽管评判器与人类高度相关,但仍可能被细微的事实错误或对抗性表述欺骗,因而仍需偶尔进行人工审计。
- 领域覆盖:当前数据集侧重通用知识和英语内容;未来计划扩展到专业领域(医学、法律)及其他语言。
- 静态隐藏拆分:隐藏测试集虽能防止过拟合,但可能随时间陈旧,作者计划定期刷新以保持基准挑战性。
- 多模态深度:视觉 QA 组件目前仅使用单图像问题;更丰富的多模态上下文(视频、表格)将在后续版本中加入。
FACTS Leaderboard 已在 Kaggle 上上线(https://www.kaggle.com/benchmarks/google/facts)。如果你正在构建基于 LLM 的产品,快来试一试,看看你的模型在全方位真实使用场景下的事实性表现如何。
作者
- Aileen Cheng
- Alon Jacovi
- Amir Globerson
- Ben Golan
- Charles Kwong
- Chris Alberti
- Connie Tao
- Eyal Ben‑David
- Gaurav Singh Tomar
- Lukas Haas
- Yonatan Bitton
- Adam Bloniarz
- Aijun Bai
- Andrew Wang
- Anfal Siddiqui
- Arturo Bajuelos Castillo
- Aviel Atias
- Chang Liu
- Corey Fry
- Daniel Balle
- Deepanway Ghosal
- Doron Kukliansky
- Dror Marcus
- Elena Gribovskaya
- Eran Ofek
- Honglei Zhuang
- Itay Laish
- Jan Ackermann
- Lily Wang
- Meg Risdal
- Megan Barnes
- Michael Fink
- Mohamed Amin
- Moran Ambar
- Natan Potikha
- Nikita Gupta
- Nitzan Katz
- Noam Velan
- Ofir Roval
- Ori Ram
- Polina Zablotskaia
- Prathamesh Bang
- Priyanka Agrawal
- Rakesh Ghiya
- Sanjay Ganapathy
- Simon Baumgartner
- Sofia Erell
- Sushant Prakash
- Thibault Sellam
- Vikram Rao
- Xuanhui Wang
- Yaroslav Akulov
- Yulong Yang
- Zhen Yang
- Zhixin Lai
- Zhongru Wu
- Anca Dragan
- Avinatan Hassidim
- Fernando Pereira
- Slav Petrov
- Srinivasan Venkatachary
- Tulsee Doshi
- Yossi Matias
- Sasha Goldshtein
- Dipanjan Das
论文信息
- arXiv ID: 2510.10791v1
- 分类: cs.CL, cs.AI
- 发表时间: 2025 年 12 月 11 日
- PDF: Download PDF