[Paper] OfficeQA Pro：企业基准用于端到端基于事实的推理

发布: 16小时前 (2026年3月10日 GMT+8 01:34)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.08655v1

概述

本文提出了 OfficeQA Pro，一个新的基准，推动 AI 代理在庞大、真实世界的文档集合上进行 基于事实的 推理：近一个世纪的美国财政部公报（≈ 89 k 页，26 M 数值）。不同于典型依赖单段落的 QA 测试，OfficeQA Pro 要求模型检索、解析，并分析性地组合来自自由文本和表格来源的信息——这些任务在企业环境中如金融分析、合规以及内部知识库等场景中十分常见。

关键贡献

企业级语料库：策划了一个公开可用的异构数据集（文本 + 表格），涵盖 100 年美国财政部数据。
基于事实的多文档问答：设计了 133 个问题，需要精确抽取、跨文档检索和数值推理。
全面评估：在三种条件下基准测试领先的大语言模型（Claude Opus 4.6、GPT‑5.4、Gemini 3.1 Pro）——仅参数、网络增强以及直接访问语料库。
结构化表示提升：展示了当代理使用 Databricks 的 ai_parse_document 生成的解析结构化视图时，性能相对提升 16.1 % 。
消融研究：分析了模型规模、表格编码、检索策略以及测试时扩展对准确率的影响。

方法论

语料库准备 – 作者抓取了财政公报的完整档案，对扫描页进行 OCR 处理，并将表格提取到可搜索的索引中。
问题设计 – 133 个查询均被设计为至少需要两个不同文档，并且需要文本与数值推理的混合（例如：“1975‑1979 财政年度 10 年期债券的平均利率是多少？”）。
代理配置 – 使用了三种实验设置：
- 仅参数化：模型仅凭内部知识作答。
- 网络增强：模型可以浏览公开网页，但不能访问私有语料库。
- 提供语料库：完整文档集被提供，形式可以是原始 PDF，或由 ai_parse_document 生成的结构化 JSON。
检索管道 – 标准的密集向量检索（FAISS）结合轻量级重排序步骤，优先考虑包含所需数值字段的文档。
评估 – 准确率通过与金标准答案的完全匹配来衡量；对数值上接近的结果（误差在 1 % 容差范围内）给予部分分。

结果与发现

设置	平均准确率
仅参数化	< 5 %
网络增强	< 12 %
原始语料库（未解析）	≈ 34 %
语料库 + `ai_parse_document`（结构化）	≈ 40 %（相对提升 16 %）

即使是最强大的大型语言模型，在完整语料库可用时也难以超过 40 %，这表明检索 + 推理仍是瓶颈。
结构化表示（将表格转为键值对、层级标题）在所有模型中始终有帮助，证实原始 PDF 对当前代理而言噪声过大。
将模型规模从 7 B 扩展到 70 B 参数的收益递减；检索质量和文档解析更为关键。
表格专用编码（例如行列位置嵌入）可提升对数值聚合类问题的表现。

实际影响

企业搜索与分析 – 需要 AI 回答金融或合规相关查询的公司不能仅依赖大型语言模型（LLM）；必须集成强大的文档解析流水线。
工具重点 – 投资高质量的 OCR、表格抽取和结构化索引（例如 Databricks 的 ai_parse_document）可以在不更换底层模型的情况下实现立竿见影的收益。
混合架构 – 基准测试表明一种 “检索优先、解析后推理” 的堆栈更为有效：密集检索 → 结构化解析 → LLM 推理。这一模式与新兴的企业 AI 平台相契合。
风险管理 – 在基于事实的任务上准确率低，凸显在缺乏严格验证的情况下将 LLM 部署用于关键金融决策的危险性。

限制与未来工作

领域特定性 – 语料库仅限于财政公报；结果可能无法直接转移到其他领域（法律、医学等）。
问题集规模 – 仅有133个问题；更大、更具多样性的问题集将更好地捕捉边缘案例。
检索基线 – 本研究使用单一密集向量检索器；探索混合（BM25 + 密集）或基于图的检索可能进一步提升性能。
人机交互 – 未来工作可以评估适度的人类帮助（例如确认检索到的文档）如何改变结果，朝着实际企业工作流迈进。

作者

Krista Opsahl-Ong
Arnav Singhvi
Jasmine Collins
Ivan Zhou
Cindy Wang
Ashutosh Baheti
Owen Oertell
Jacob Portes
Sam Havens
Erich Elsen
Michael Bendersky
Matei Zaharia
Xing Chen

论文信息

arXiv ID: 2603.08655v1
分类: cs.AI, cs.CL, cs.IR
发表日期: 2026年3月9日
PDF: 下载 PDF

[Paper] OfficeQA Pro：企业基准用于端到端基于事实的推理

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[论文] 无监督 RLVR 能将 LLM 训练规模扩展到多远？

[Paper] LycheeCluster: 高效长上下文推理与结构感知分块和层次化 KV 索引

[Paper] 尺度空间扩散

[Paper] Impermanent：实时基准用于时间序列预测中的时间泛化