[Paper] DocDancer: 에이전시 문서 기반 정보 탐색을 향하여
Source: arXiv - 2601.05163v1
개요
DocDancer는 현재 문서‑질문 응답(DocQA) 시스템의 핵심 제한점을 해결합니다: 문서를 정적인 텍스트 블롭으로 취급하고 대규모 폐쇄형 언어 모델에 크게 의존합니다. DocQA를 정보‑탐색 작업으로 재구성하고 에이전트에게 문서 탐색을 위한 툴박스를 제공함으로써, 저자들은 오픈‑소스이며 엔드‑투‑엔드로 학습 가능한 시스템을 제공합니다. 이 시스템은 길고 실제 세계의 문서에서 탐색하고 답변을 종합할 수 있습니다.
주요 기여
- Agentic framework for DocQA – 탐색(검색, 검색, 요약)과 합성(답변 생성)을 분리하는 도구 기반 아키텍처를 소개합니다.
- Exploration‑then‑Synthesis data pipeline – 주석이 부족한 DocQA 데이터를 극복하기 위해 고품질 합성 학습 삼중항(질문, 탐색 추적, 답변)을 생성합니다.
- Open‑source implementation – 공개된 LLM 백본을 기반으로 완전히 학습 가능한 DocQA 에이전트를 제공하여 독점 모델에 대한 의존성을 제거합니다.
- Benchmark validation – 두 개의 장문 컨텍스트 벤치마크(MMLongBench‑Doc, DocBench)에서 강력한 성능을 입증하고, 명시적 도구 사용이 없는 베이스라인보다 우수합니다.
- Insightful analysis – 도구 설계(예: 검색 vs 요약 모듈)와 합성 데이터 품질이 미치는 영향을 실증적으로 안내합니다.
Methodology
- Problem Reformulation – 저자들은 문서에 대한 질문에 답하는 것을 인간이 스키밍하고, 관련 구절을 찾아낸 뒤 답변을 구성하는 것과 유사한 다단계 정보 탐색 과정으로 본다.
- Tool‑Driven Agent Architecture
- Exploration Module: 키워드 검색, 구절 검색, 요약기, 표 추출기 등과 같은 결정론적 도구들의 집합으로, 에이전트가 호출할 수 있다. 각 도구는 간결한 결과를 반환하며, 이 결과는 에이전트의 추론 루프에 다시 입력된다.
- Synthesis Module: 누적된 탐색 컨텍스트를 소비하고 최종 답변을 생성하는 언어 모델.
- 에이전트의 정책은 엔드‑투‑엔드 방식으로 학습된다: 질문이 주어지면 다음에 호출할 도구를 결정하고, 언제 멈추어 답변을 제시할지 판단한다.
- Exploration‑then‑Synthesis Data Synthesis
- 원시 문서에서 시작해 휴리스틱 및 LLM 기반 질문 생성기를 사용해 question 프롬프트를 자동으로 만든다.
- 답변 스팬을 찾기 위해 스크립트된 도구 호출 순서를 실행하는 “explorer”를 시뮬레이션하고, 도구 사용 추적(trace)을 기록한다.
- 최종 답변은 동일한 추적을 이용해 강력한 LLM(teacher)이 생성하며, 고품질의 (question, trace, answer) 삼중항을 만든다.
- 이 합성 데이터셋을 통해 에이전트가 탐색‑후‑합성 워크플로우를 모방하도록 학습한다.
- Training & Inference – 정책 네트워크(경량 트랜스포머)는 합성 삼중항에 대해 지도 학습으로 훈련된 뒤, 사용 가능한 인간 주석 DocQA 데이터에 대해 미세 조정된다. 추론 시 에이전트는 정지 기준이 충족될 때까지 동적으로 어떤 도구를 호출할지 결정한다.
Results & Findings
| 벤치마크 | 베이스라인 (도구 없음) | DocDancer (오픈소스) | 폐쇄형 LLM |
|---|---|---|---|
| MMLongBench‑Doc | 42.7 % EM | 55.3 % EM | 58.1 % EM |
| DocBench | 38.4 % EM | 51.9 % EM | 53.6 % EM |
- 도구 사용이 중요합니다: 제거 실험(ablation studies)에서 검색 도구를 없애면 EM이 약 8 포인트 감소함을 확인했으며, 이는 명시적인 탐색이 답변 정확도를 높인다는 것을 증명합니다.
- 합성 데이터 품질: 합성 트리플만으로 학습한 모델이 제한된 인간 주석 데이터로 학습한 모델의 약 90 % 성능을 달성함을 보여 파이프라인의 효과성을 입증합니다.
- 효율성: 에이전트는 일반적으로 질의당 3–5번의 도구 호출을 수행하며, 단일 GPU에서 지연 시간을 2 초 이하로 유지해 일반 LLM 추론과 비교해도 비슷한 수준입니다.
실용적 함의
- Enterprise Knowledge Bases – 기업은 DocDancer를 배포하여 직원들이 내부 PDF, 매뉴얼, 정책 문서를 자체 LLM API를 노출하지 않고도 조회할 수 있습니다.
- Legal & Compliance Automation – 도구 기반 접근 방식을 도메인 특화 추출기(예: 조항 찾기)와 결합하면 관련 계약 문구를 신속하게 찾아낼 수 있습니다.
- Developer‑Friendly SDK – 시스템이 오픈소스이며 모듈식이기 때문에 개발자는 맞춤형 도구(예: 코드 검색, API 문서)를 연결해 특화된 “문서 어시스턴트”를 구축할 수 있습니다.
- Cost Reduction – 소규모 오픈 모델과 결정론적 도구를 활용함으로써 조직은 최첨단에 근접한 성능을 유지하면서 추론 비용을 크게 낮출 수 있습니다.
제한 사항 및 향후 작업
- 합성 편향 – 데이터 합성 파이프라인은 질문과 답변을 생성하는 LLM의 편향을 물려받으며, 드물거나 매우 미묘한 쿼리는 여전히 충분히 대표되지 않을 수 있습니다.
- 도구 세트 범위 – 현재 도구는 일반 텍스트 검색 및 요약에 초점을 맞추고 있으며, 중첩된 표, 그림, 멀티모달 콘텐츠와 같은 복잡한 구조를 처리하는 것은 아직 해결되지 않은 과제입니다.
- 대규모 코퍼스 확장성 – 단일 문서 환경에서는 효과적이지만, 탐색 정책을 수천 개 문서에 걸쳐 검색하도록 확장하려면 보다 정교한 인덱싱 및 검색 전략이 필요합니다.
- 사용자 상호작용 – 현재 에이전트는 자율적으로 작동합니다; 향후 작업에서는 모호한 질문을 해결하기 위해 사용자와의 인터랙티브한 명확화 루프를 포함할 수 있습니다.
DocDancer는 언어 모델에 잘 설계된 도구 상자를 제공하고 현실적인 탐색 트레이스를 학습시킴으로써 연구 수준 DocQA와 생산 준비가 된 비용 효율적인 문서 어시스턴트 사이의 격차를 메울 수 있음을 보여줍니다. 차세대 지식 기반 봇을 구축하려는 개발자는 이 에이전시 패러다임에 주목해야 합니다.
저자
- Qintong Zhang
- Xinjie Lv
- Jialong Wu
- Baixuan Li
- Zhengwei Tao
- Guochen Yan
- Huanyao Zhang
- Bin Wang
- Jiahao Xu
- Haitao Mi
- Wentao Zhang
논문 정보
- arXiv ID: 2601.05163v1
- 분류: cs.CL
- 출판일: 2026년 1월 8일
- PDF: PDF 다운로드