[Paper] OfficeQA Pro:企业基准用于端到端基于事实的推理
发布: (2026年3月10日 GMT+8 01:34)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.08655v1
概述
本文提出了 OfficeQA Pro,一个新的基准,推动 AI 代理在庞大、真实世界的文档集合上进行 基于事实的 推理:近一个世纪的美国财政部公报(≈ 89 k 页,26 M 数值)。不同于典型依赖单段落的 QA 测试,OfficeQA Pro 要求模型检索、解析,并分析性地组合来自自由文本和表格来源的信息——这些任务在企业环境中如金融分析、合规以及内部知识库等场景中十分常见。
关键贡献
- 企业级语料库:策划了一个公开可用的异构数据集(文本 + 表格),涵盖 100 年美国财政部数据。
- 基于事实的多文档问答:设计了 133 个问题,需要精确抽取、跨文档检索和数值推理。
- 全面评估:在三种条件下基准测试领先的大语言模型(Claude Opus 4.6、GPT‑5.4、Gemini 3.1 Pro)——仅参数、网络增强以及直接访问语料库。
- 结构化表示提升:展示了当代理使用 Databricks 的
ai_parse_document生成的解析结构化视图时,性能相对提升 16.1 % 。 - 消融研究:分析了模型规模、表格编码、检索策略以及测试时扩展对准确率的影响。
方法论
- 语料库准备 – 作者抓取了财政公报的完整档案,对扫描页进行 OCR 处理,并将表格提取到可搜索的索引中。
- 问题设计 – 133 个查询均被设计为至少需要两个不同文档,并且需要文本与数值推理的混合(例如:“1975‑1979 财政年度 10 年期债券的平均利率是多少?”)。
- 代理配置 – 使用了三种实验设置:
- 仅参数化:模型仅凭内部知识作答。
- 网络增强:模型可以浏览公开网页,但不能访问私有语料库。
- 提供语料库:完整文档集被提供,形式可以是原始 PDF,或由
ai_parse_document生成的结构化 JSON。
- 检索管道 – 标准的密集向量检索(FAISS)结合轻量级重排序步骤,优先考虑包含所需数值字段的文档。
- 评估 – 准确率通过与金标准答案的完全匹配来衡量;对数值上接近的结果(误差在 1 % 容差范围内)给予部分分。
结果与发现
| 设置 | 平均准确率 |
|---|---|
| 仅参数化 | < 5 % |
| 网络增强 | < 12 % |
| 原始语料库(未解析) | ≈ 34 % |
语料库 + ai_parse_document(结构化) | ≈ 40 %(相对提升 16 %) |
- 即使是最强大的大型语言模型,在完整语料库可用时也难以超过 40 %,这表明检索 + 推理仍是瓶颈。
- 结构化表示(将表格转为键值对、层级标题)在所有模型中始终有帮助,证实原始 PDF 对当前代理而言噪声过大。
- 将模型规模从 7 B 扩展到 70 B 参数的收益递减;检索质量和文档解析更为关键。
- 表格专用编码(例如行列位置嵌入)可提升对数值聚合类问题的表现。
实际影响
- 企业搜索与分析 – 需要 AI 回答金融或合规相关查询的公司不能仅依赖大型语言模型(LLM);必须集成强大的文档解析流水线。
- 工具重点 – 投资高质量的 OCR、表格抽取和结构化索引(例如 Databricks 的
ai_parse_document)可以在不更换底层模型的情况下实现立竿见影的收益。 - 混合架构 – 基准测试表明一种 “检索优先、解析后推理” 的堆栈更为有效:密集检索 → 结构化解析 → LLM 推理。这一模式与新兴的企业 AI 平台相契合。
- 风险管理 – 在基于事实的任务上准确率低,凸显在缺乏严格验证的情况下将 LLM 部署用于关键金融决策的危险性。
限制与未来工作
- 领域特定性 – 语料库仅限于财政公报;结果可能无法直接转移到其他领域(法律、医学等)。
- 问题集规模 – 仅有133个问题;更大、更具多样性的问题集将更好地捕捉边缘案例。
- 检索基线 – 本研究使用单一密集向量检索器;探索混合(BM25 + 密集)或基于图的检索可能进一步提升性能。
- 人机交互 – 未来工作可以评估适度的人类帮助(例如确认检索到的文档)如何改变结果,朝着实际企业工作流迈进。
作者
- Krista Opsahl-Ong
- Arnav Singhvi
- Jasmine Collins
- Ivan Zhou
- Cindy Wang
- Ashutosh Baheti
- Owen Oertell
- Jacob Portes
- Sam Havens
- Erich Elsen
- Michael Bendersky
- Matei Zaharia
- Xing Chen
论文信息
- arXiv ID: 2603.08655v1
- 分类: cs.AI, cs.CL, cs.IR
- 发表日期: 2026年3月9日
- PDF: 下载 PDF