[Paper] DocDancer:迈向 Agentic 文档驱动的信息检索
发布: (2026年1月9日 GMT+8 01:54)
7 min read
原文: arXiv
Source: arXiv - 2601.05163v1
Overview
DocDancer 解决了当前文档问答(DocQA)系统的一个核心限制:它们把文档视为静态文本块,并且严重依赖大型闭源语言模型。通过将 DocQA 重新定义为 信息‑seeking 任务,并为代理提供文档探索工具箱,作者们交付了一个开源、端到端可训练的系统,能够在长篇真实文档中进行导航并综合答案。
关键贡献
- Agentic framework for DocQA – 引入一种工具驱动的架构,将 探索(搜索、检索、摘要)与 合成(答案生成)分离。
- Exploration‑then‑Synthesis data pipeline – 生成高质量的合成训练三元组(question, exploration trace, answer),以克服标注 DocQA 数据的稀缺。
- Open‑source implementation – 提供一个基于公开可用 LLM 主干的可完全训练的 DocQA 代理,去除对专有模型的依赖。
- Benchmark validation – 在两个长上下文基准(MMLongBench‑Doc、DocBench)上展示出强劲性能,超越未使用显式工具的基线。
- Insightful analysis – 提供关于工具设计(如检索 vs. 摘要模块)以及合成数据质量影响的经验性指导。
方法论
- 问题重构 – 作者将针对文档的提问视为一个多步骤的信息检索过程,类似于人类先浏览、定位相关段落,然后撰写答案。
- 工具驱动的代理架构
- 探索模块:一组确定性的工具(关键词搜索、段落检索、摘要生成、表格提取等),代理可以调用。每个工具返回简洁的结果,反馈到代理的推理循环中。
- 合成模块:一个语言模型,利用累计的探索上下文生成最终答案。
- 代理的策略端到端学习:给定问题后,它决定下一步调用哪个工具以及何时停止并给出答案。
- 探索‑再‑合成数据合成
- 从原始文档开始,使用启发式方法和基于大模型的提问生成器自动生成问题提示。
- 模拟一个“探索者”,执行一系列脚本化的工具调用以定位答案片段,并记录工具使用轨迹。
- 使用相同轨迹,由强大的大模型(教师)生成最终答案,形成高质量的(问题、轨迹、答案)三元组。
- 该合成数据集用于训练代理,使其模仿探索‑再‑合成的工作流程。
- 训练与推理 – 策略网络(轻量级 Transformer)在合成的三元组上进行监督学习,然后在任何可用的人类标注的 DocQA 数据上进行微调。推理时,代理会动态决定调用哪个工具,直至满足停止准则。
结果与发现
| Benchmark | Baseline (no tools) | DocDancer (open‑source) | Closed‑source LLM |
|---|---|---|---|
| MMLongBench‑Doc | 42.7 % EM | 55.3 % EM | 58.1 % EM |
| DocBench | 38.4 % EM | 51.9 % EM | 53.6 % EM |
- 工具使用很重要:消融实验表明,去除检索工具会导致 EM 下降约 8 分,验证了显式检索能够提升答案准确性。
- 合成数据质量:仅使用合成三元组进行训练,可达到使用有限人工标注数据训练模型性能的约 90%,展示了该流水线的有效性。
- 效率:代理通常每个查询进行 3–5 次工具调用,单 GPU 延迟保持在 2 秒以内,媲美普通 LLM 推理。
实际意义
- Enterprise Knowledge Bases – Companies can deploy DocDancer to let employees query internal PDFs, manuals, or policy documents without exposing proprietary LLM APIs.
- Legal & Compliance Automation – The tool‑driven approach can be extended with domain‑specific extractors (e.g., clause finders) to surface relevant contract language quickly.
- Developer‑Friendly SDK – Because the system is open‑source and modular, developers can plug in custom tools (e.g., code search, API docs) to build specialized “document assistants.”
- Cost Reduction – By relying on smaller open models plus deterministic tools, organizations can achieve near‑state‑of‑the‑art performance while cutting inference costs dramatically.
限制与未来工作
- 合成偏差 – 数据合成流水线继承了用于生成问题和答案的语言模型的偏见;罕见或高度细微的查询可能仍然表现不足。
- 工具集范围 – 目前的工具侧重于纯文本检索和摘要;处理嵌套表格、图形或多模态内容等复杂结构仍是一个未解决的挑战。
- 大规模语料库的可扩展性 – 虽然在单文档上下文中效果良好,但将探索策略扩展到数千文档的检索需要更复杂的索引和检索策略。
- 用户交互 – 当前代理自主运行;未来工作可以加入与用户的交互式澄清循环,以解决模糊问题。
DocDancer 展示了为语言模型提供精心设计的工具箱并在真实的探索轨迹上进行训练,能够弥合研究级 DocQA 与生产就绪、成本效益高的文档助理之间的差距。对构建下一代知识库机器人感兴趣的开发者应关注这种代理范式。
作者
- Qintong Zhang
- Xinjie Lv
- Jialong Wu
- Baixuan Li
- Zhengwei Tao
- Guochen Yan
- Huanyao Zhang
- Bin Wang
- Jiahao Xu
- Haitao Mi
- Wentao Zhang
论文信息
- arXiv ID: 2601.05163v1
- 分类: cs.CL
- 出版日期: 2026年1月8日
- PDF: 下载 PDF