[Paper] pdfQA:多样、具挑战性和真实的 PDF 问答

发布: (2026年1月6日 GMT+8 01:15)
7 min read
原文: arXiv

Source: arXiv - 2601.02285v1

概述

PDF 文档随处可见——从研究论文到产品手册——然而大多数问答(QA)数据集都是基于纯文本或范围狭窄的来源构建的。pdfQA 论文推出了一个新的大规模基准,捕捉了真实世界 PDF 的混乱性,提供了跨越十个难度维度的人为标注和合成生成的 QA 对。通过此举,它为开发者提供了一个用于端到端 PDF‑QA 流水线的真实测试平台。

关键贡献

  • Dual‑mode dataset: 2 K 人工标注(real‑pdfQA)和 2 K 合成(syn‑pdfQA)问答对,覆盖多种文档类型和领域。
  • Ten complexity dimensions(例如文件格式特性、来源模态、答案类型、文件中的位置)让您可以按难度对数据进行切分。
  • Quality‑and‑difficulty filtering pipeline 自动剔除低质量或过于简单的对,确保基准具有挑战性。
  • Comprehensive evaluation 对多个开源大型语言模型(LLMs)在该数据集上的全面评估,揭示与定义维度相关的具体失效模式。
  • Open‑source release 数据、标注指南和评估脚本的开源发布,支持可重复的研究并快速集成到现有 QA 系统中。

方法论

  1. 数据收集

    • 真实 PDF:从 10 个公共领域(学术论文、产品数据表、法律合同等)精选。人工标注员阅读每个 PDF 并编写自然语言问题以及精确的答案跨度。
    • 合成 PDF:通过程序将多种源格式(HTML、Markdown、LaTeX)转换为 PDF,然后自动提取文本并使用语言模型生成 QA 对,随后由人工进行验证。
  2. 复杂度标注
    对每个 QA 对,标注员标记了十个属性,例如:

    • 文件类型(矢量 vs. 扫描图像)
    • 来源模态(文本、表格、图注)
    • 来源位置(页眉、脚注、正文)
    • 答案类型(数值、布尔、跨度、多跨度)
      这种结构化标注使研究人员能够按特定挑战进行筛选。
  3. 过滤流水线

    • 质量过滤:检查问答相关性、答案跨度对齐以及 OCR 置信度(针对扫描 PDF)。
    • 难度过滤:使用启发式得分(例如答案长度、是否包含表格/图形)来保留对当前模型而言非平凡的对。
  4. 模型评估
    开源大语言模型(如 Llama‑2‑13B、Mistral‑7B)在通用 QA 语料上进行微调后,直接在 pdfQA 上测试,未使用任何 PDF‑特定的预处理。检索使用 BM25 在提取的文本上进行,最终答案由 LLM 生成。性能按照每个复杂度维度进行细分。

结果与发现

模型精确匹配 (EM)F1相较于纯文本问答的下降
Llama‑2‑13B31.2 %44.8 %–12 pp
Mistral‑7B28.9 %42.1 %–15 pp
  • 最困难的维度:扫描的图像 PDF、嵌入表格的答案以及多跨度答案导致性能下降最为显著。
  • 检索瓶颈:BM25 在处理布局感知查询(例如 “表 3 第二列的数值是多少?”)时表现不佳,导致召回率低。
  • 解析错误:扫描 PDF 中的 OCR 识别错误约占失败的 30 %,甚至在 LLM 看到文本之前就已经出现。
  • 模型感知:更大的模型在复杂答案类型上有适度提升,但仍未达到人工标注集的水平(≈78 % EM)。

实际意义

  • 端到端流水线测试:pdfQA 让工程师在真实条件下对每个阶段——OCR、布局解析、检索和 LLM 推理——进行基准评估。
  • 有针对性的改进:通过在十个维度上切分基准,团队可以优先处理(例如更好的表格提取或 OCR 后处理)能够带来最大准确率提升的修复。
  • 产品化:构建面向技术文档、法律合同或科学文献的 AI 助手的公司可以使用 pdfQA 验证其系统不仅在干净的 HTML 上有效,也能在用户实际上传的混乱 PDF 上正常工作。
  • 微调数据:合成部分提供了可扩展的多样化 PDF QA 对,供特定领域模型适配使用,无需大量人工标注的成本。

限制与未来工作

  • 规模:约 4 K QA 对的 pdfQA 相比大规模的网络级 QA 语料库仍显 modest;更大的数据集能够更好地捕捉 PDF 的长尾特性。
  • 领域覆盖:虽然是多领域的,但一些高风险行业(例如医疗记录、财务报表)仍然代表性不足。
  • 检索基线:本研究使用了简单的 BM25 检索器;未来工作可以探索神经密集检索或考虑视觉布局的多模态索引。
  • 动态 PDF:交互式或加密的 PDF 被排除在外,处理这些格式仍是一个未解决的挑战。

通过揭示基于 PDF 的问答隐藏的复杂性,pdfQA 为开发者构建稳健、面向真实世界的文档 AI 系统提供了实用的路线图。

作者

  • Tobias Schimanski
  • Imene Kolli
  • Jingwei Ni
  • Yu Fan
  • Ario Saeid Vaghefi
  • Elliott Ash
  • Markus Leippold

论文信息

  • arXiv ID: 2601.02285v1
  • 分类: cs.CL, cs.AI
  • 发表时间: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »