[Paper] pdfQA:多样、具挑战性和真实的 PDF 问答
发布: (2026年1月6日 GMT+8 01:15)
7 min read
原文: arXiv
Source: arXiv - 2601.02285v1
概述
PDF 文档随处可见——从研究论文到产品手册——然而大多数问答(QA)数据集都是基于纯文本或范围狭窄的来源构建的。pdfQA 论文推出了一个新的大规模基准,捕捉了真实世界 PDF 的混乱性,提供了跨越十个难度维度的人为标注和合成生成的 QA 对。通过此举,它为开发者提供了一个用于端到端 PDF‑QA 流水线的真实测试平台。
关键贡献
- Dual‑mode dataset: 2 K 人工标注(real‑pdfQA)和 2 K 合成(syn‑pdfQA)问答对,覆盖多种文档类型和领域。
- Ten complexity dimensions(例如文件格式特性、来源模态、答案类型、文件中的位置)让您可以按难度对数据进行切分。
- Quality‑and‑difficulty filtering pipeline 自动剔除低质量或过于简单的对,确保基准具有挑战性。
- Comprehensive evaluation 对多个开源大型语言模型(LLMs)在该数据集上的全面评估,揭示与定义维度相关的具体失效模式。
- Open‑source release 数据、标注指南和评估脚本的开源发布,支持可重复的研究并快速集成到现有 QA 系统中。
方法论
-
数据收集
- 真实 PDF:从 10 个公共领域(学术论文、产品数据表、法律合同等)精选。人工标注员阅读每个 PDF 并编写自然语言问题以及精确的答案跨度。
- 合成 PDF:通过程序将多种源格式(HTML、Markdown、LaTeX)转换为 PDF,然后自动提取文本并使用语言模型生成 QA 对,随后由人工进行验证。
-
复杂度标注
对每个 QA 对,标注员标记了十个属性,例如:- 文件类型(矢量 vs. 扫描图像)
- 来源模态(文本、表格、图注)
- 来源位置(页眉、脚注、正文)
- 答案类型(数值、布尔、跨度、多跨度)
这种结构化标注使研究人员能够按特定挑战进行筛选。
-
过滤流水线
- 质量过滤:检查问答相关性、答案跨度对齐以及 OCR 置信度(针对扫描 PDF)。
- 难度过滤:使用启发式得分(例如答案长度、是否包含表格/图形)来保留对当前模型而言非平凡的对。
-
模型评估
开源大语言模型(如 Llama‑2‑13B、Mistral‑7B)在通用 QA 语料上进行微调后,直接在 pdfQA 上测试,未使用任何 PDF‑特定的预处理。检索使用 BM25 在提取的文本上进行,最终答案由 LLM 生成。性能按照每个复杂度维度进行细分。
结果与发现
| 模型 | 精确匹配 (EM) | F1 | 相较于纯文本问答的下降 |
|---|---|---|---|
| Llama‑2‑13B | 31.2 % | 44.8 % | –12 pp |
| Mistral‑7B | 28.9 % | 42.1 % | –15 pp |
- 最困难的维度:扫描的图像 PDF、嵌入表格的答案以及多跨度答案导致性能下降最为显著。
- 检索瓶颈:BM25 在处理布局感知查询(例如 “表 3 第二列的数值是多少?”)时表现不佳,导致召回率低。
- 解析错误:扫描 PDF 中的 OCR 识别错误约占失败的 30 %,甚至在 LLM 看到文本之前就已经出现。
- 模型感知:更大的模型在复杂答案类型上有适度提升,但仍未达到人工标注集的水平(≈78 % EM)。
实际意义
- 端到端流水线测试:pdfQA 让工程师在真实条件下对每个阶段——OCR、布局解析、检索和 LLM 推理——进行基准评估。
- 有针对性的改进:通过在十个维度上切分基准,团队可以优先处理(例如更好的表格提取或 OCR 后处理)能够带来最大准确率提升的修复。
- 产品化:构建面向技术文档、法律合同或科学文献的 AI 助手的公司可以使用 pdfQA 验证其系统不仅在干净的 HTML 上有效,也能在用户实际上传的混乱 PDF 上正常工作。
- 微调数据:合成部分提供了可扩展的多样化 PDF QA 对,供特定领域模型适配使用,无需大量人工标注的成本。
限制与未来工作
- 规模:约 4 K QA 对的 pdfQA 相比大规模的网络级 QA 语料库仍显 modest;更大的数据集能够更好地捕捉 PDF 的长尾特性。
- 领域覆盖:虽然是多领域的,但一些高风险行业(例如医疗记录、财务报表)仍然代表性不足。
- 检索基线:本研究使用了简单的 BM25 检索器;未来工作可以探索神经密集检索或考虑视觉布局的多模态索引。
- 动态 PDF:交互式或加密的 PDF 被排除在外,处理这些格式仍是一个未解决的挑战。
通过揭示基于 PDF 的问答隐藏的复杂性,pdfQA 为开发者构建稳健、面向真实世界的文档 AI 系统提供了实用的路线图。
作者
- Tobias Schimanski
- Imene Kolli
- Jingwei Ni
- Yu Fan
- Ario Saeid Vaghefi
- Elliott Ash
- Markus Leippold
论文信息
- arXiv ID: 2601.02285v1
- 分类: cs.CL, cs.AI
- 发表时间: 2026年1月5日
- PDF: 下载 PDF