[Paper] DocDancer: 에이전시 문서 기반 정보 탐색을 향하여

발행: 1개월 전 (2026년 1월 9일 오전 02:54 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2601.05163v1

개요

DocDancer는 현재 문서‑질문 응답(DocQA) 시스템의 핵심 제한점을 해결합니다: 문서를 정적인 텍스트 블롭으로 취급하고 대규모 폐쇄형 언어 모델에 크게 의존합니다. DocQA를 정보‑탐색 작업으로 재구성하고 에이전트에게 문서 탐색을 위한 툴박스를 제공함으로써, 저자들은 오픈‑소스이며 엔드‑투‑엔드로 학습 가능한 시스템을 제공합니다. 이 시스템은 길고 실제 세계의 문서에서 탐색하고 답변을 종합할 수 있습니다.

주요 기여

Agentic framework for DocQA – 탐색(검색, 검색, 요약)과 합성(답변 생성)을 분리하는 도구 기반 아키텍처를 소개합니다.
Exploration‑then‑Synthesis data pipeline – 주석이 부족한 DocQA 데이터를 극복하기 위해 고품질 합성 학습 삼중항(질문, 탐색 추적, 답변)을 생성합니다.
Open‑source implementation – 공개된 LLM 백본을 기반으로 완전히 학습 가능한 DocQA 에이전트를 제공하여 독점 모델에 대한 의존성을 제거합니다.
Benchmark validation – 두 개의 장문 컨텍스트 벤치마크(MMLongBench‑Doc, DocBench)에서 강력한 성능을 입증하고, 명시적 도구 사용이 없는 베이스라인보다 우수합니다.
Insightful analysis – 도구 설계(예: 검색 vs 요약 모듈)와 합성 데이터 품질이 미치는 영향을 실증적으로 안내합니다.

Methodology

Problem Reformulation – 저자들은 문서에 대한 질문에 답하는 것을 인간이 스키밍하고, 관련 구절을 찾아낸 뒤 답변을 구성하는 것과 유사한 다단계 정보 탐색 과정으로 본다.
Tool‑Driven Agent Architecture
- Exploration Module: 키워드 검색, 구절 검색, 요약기, 표 추출기 등과 같은 결정론적 도구들의 집합으로, 에이전트가 호출할 수 있다. 각 도구는 간결한 결과를 반환하며, 이 결과는 에이전트의 추론 루프에 다시 입력된다.
- Synthesis Module: 누적된 탐색 컨텍스트를 소비하고 최종 답변을 생성하는 언어 모델.
- 에이전트의 정책은 엔드‑투‑엔드 방식으로 학습된다: 질문이 주어지면 다음에 호출할 도구를 결정하고, 언제 멈추어 답변을 제시할지 판단한다.
Exploration‑then‑Synthesis Data Synthesis
- 원시 문서에서 시작해 휴리스틱 및 LLM 기반 질문 생성기를 사용해 question 프롬프트를 자동으로 만든다.
- 답변 스팬을 찾기 위해 스크립트된 도구 호출 순서를 실행하는 “explorer”를 시뮬레이션하고, 도구 사용 추적(trace)을 기록한다.
- 최종 답변은 동일한 추적을 이용해 강력한 LLM(teacher)이 생성하며, 고품질의 (question, trace, answer) 삼중항을 만든다.
- 이 합성 데이터셋을 통해 에이전트가 탐색‑후‑합성 워크플로우를 모방하도록 학습한다.
Training & Inference – 정책 네트워크(경량 트랜스포머)는 합성 삼중항에 대해 지도 학습으로 훈련된 뒤, 사용 가능한 인간 주석 DocQA 데이터에 대해 미세 조정된다. 추론 시 에이전트는 정지 기준이 충족될 때까지 동적으로 어떤 도구를 호출할지 결정한다.

Results & Findings

벤치마크	베이스라인 (도구 없음)	DocDancer (오픈소스)	폐쇄형 LLM
MMLongBench‑Doc	42.7 % EM	55.3 % EM	58.1 % EM
DocBench	38.4 % EM	51.9 % EM	53.6 % EM

도구 사용이 중요합니다: 제거 실험(ablation studies)에서 검색 도구를 없애면 EM이 약 8 포인트 감소함을 확인했으며, 이는 명시적인 탐색이 답변 정확도를 높인다는 것을 증명합니다.
합성 데이터 품질: 합성 트리플만으로 학습한 모델이 제한된 인간 주석 데이터로 학습한 모델의 약 90 % 성능을 달성함을 보여 파이프라인의 효과성을 입증합니다.
효율성: 에이전트는 일반적으로 질의당 3–5번의 도구 호출을 수행하며, 단일 GPU에서 지연 시간을 2 초 이하로 유지해 일반 LLM 추론과 비교해도 비슷한 수준입니다.

실용적 함의

Enterprise Knowledge Bases – 기업은 DocDancer를 배포하여 직원들이 내부 PDF, 매뉴얼, 정책 문서를 자체 LLM API를 노출하지 않고도 조회할 수 있습니다.
Legal & Compliance Automation – 도구 기반 접근 방식을 도메인 특화 추출기(예: 조항 찾기)와 결합하면 관련 계약 문구를 신속하게 찾아낼 수 있습니다.
Developer‑Friendly SDK – 시스템이 오픈소스이며 모듈식이기 때문에 개발자는 맞춤형 도구(예: 코드 검색, API 문서)를 연결해 특화된 “문서 어시스턴트”를 구축할 수 있습니다.
Cost Reduction – 소규모 오픈 모델과 결정론적 도구를 활용함으로써 조직은 최첨단에 근접한 성능을 유지하면서 추론 비용을 크게 낮출 수 있습니다.

제한 사항 및 향후 작업

합성 편향 – 데이터 합성 파이프라인은 질문과 답변을 생성하는 LLM의 편향을 물려받으며, 드물거나 매우 미묘한 쿼리는 여전히 충분히 대표되지 않을 수 있습니다.
도구 세트 범위 – 현재 도구는 일반 텍스트 검색 및 요약에 초점을 맞추고 있으며, 중첩된 표, 그림, 멀티모달 콘텐츠와 같은 복잡한 구조를 처리하는 것은 아직 해결되지 않은 과제입니다.
대규모 코퍼스 확장성 – 단일 문서 환경에서는 효과적이지만, 탐색 정책을 수천 개 문서에 걸쳐 검색하도록 확장하려면 보다 정교한 인덱싱 및 검색 전략이 필요합니다.
사용자 상호작용 – 현재 에이전트는 자율적으로 작동합니다; 향후 작업에서는 모호한 질문을 해결하기 위해 사용자와의 인터랙티브한 명확화 루프를 포함할 수 있습니다.

DocDancer는 언어 모델에 잘 설계된 도구 상자를 제공하고 현실적인 탐색 트레이스를 학습시킴으로써 연구 수준 DocQA와 생산 준비가 된 비용 효율적인 문서 어시스턴트 사이의 격차를 메울 수 있음을 보여줍니다. 차세대 지식 기반 봇을 구축하려는 개발자는 이 에이전시 패러다임에 주목해야 합니다.

저자

Qintong Zhang
Xinjie Lv
Jialong Wu
Baixuan Li
Zhengwei Tao
Guochen Yan
Huanyao Zhang
Bin Wang
Jiahao Xu
Haitao Mi
Wentao Zhang

논문 정보

arXiv ID: 2601.05163v1
분류: cs.CL
출판일: 2026년 1월 8일
PDF: PDF 다운로드

[Paper] DocDancer: 에이전시 문서 기반 정보 탐색을 향하여

개요

주요 기여

Methodology

Results & Findings

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] AdaFuse: 적응형 앙상블 디코딩과 테스트 시 스케일링을 이용한 LLMs

[Paper] 증거 연결: 견고한 Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

[Paper] 캐시를 깨뜨리지 마세요: 장기 지평선 에이전시 작업을 위한 Prompt Caching 평가

[Paper] 생각의 분자 구조: Long Chain-of-Thought Reasoning 위상의 매핑