[Paper] OfficeQA Pro: 엔터프라이즈 벤치마크 for 엔드투엔드 기반 추론
Source: arXiv - 2603.08655v1
번역을 진행하려면 원본 텍스트(예: 초록, 본문, 섹션 등)를 제공해 주시겠어요?
텍스트를 알려주시면 요청하신 대로 한국어로 번역해 드리겠습니다.
Overview
이 논문은 OfficeQA Pro라는 새로운 벤치마크를 소개한다. 이 벤치마크는 AI 에이전트가 방대한 실제 문서 컬렉션—거의 한 세기에 걸친 미국 재무부 Bulletin(≈ 89 k 페이지, 26 M 숫자값)—에 대해 grounded 추론을 수행하도록 압박한다. 일반적인 QA 테스트가 단일 구절에 의존하는 것과 달리, OfficeQA Pro는 모델이 자유 텍스트와 표 형식 소스 모두에서 정보를 검색하고, 파싱하며, 분석적으로 결합하도록 강제한다. 이러한 작업은 금융 분석, 규정 준수, 내부 지식 베이스와 같은 기업 환경에서 흔히 발생한다.
주요 기여
- Enterprise‑scale corpus: 공개적으로 이용 가능한 이질적인 데이터셋(텍스트 + 표)을 100 년간의 재무 데이터에 걸쳐 정리했습니다.
- Grounded multi‑document QA: 정밀 추출, 문서 간 검색, 수치 추론이 필요한 133개의 질문을 설계했습니다.
- Comprehensive evaluation: 파라미터 전용, 웹 보강, 직접 코퍼스 접근 세 가지 조건에서 주요 LLM(Claude Opus 4.6, GPT‑5.4, Gemini 3.1 Pro)을 벤치마크했습니다.
- Structured representation boost: Databricks의
ai_parse_document로 생성된 파싱된 구조화된 문서 뷰를 에이전트가 활용할 때 16.1 %의 상대 성능 향상을 입증했습니다. - Ablation studies: 모델 크기, 표 인코딩, 검색 전략, 테스트 시 스케일링이 정확도에 미치는 영향을 분석했습니다.
방법론
- 코퍼스 준비 – 저자들은 재무 공보 전체 아카이브를 스크랩하고, OCR‑처리된 스캔 페이지와 표를 검색 가능한 인덱스로 추출했습니다.
- 질문 설계 – 133개의 질의 각각은 최소 두 개 이상의 서로 다른 문서를 필요로 하고, 텍스트와 수치 추론을 혼합하도록 설계되었습니다(예: “1975‑1979 회계연도에 10년 만기 채권의 평균 금리는 얼마였나요?”).
- 에이전트 구성 – 세 가지 실험 설정을 사용했습니다:
- Parametric only: 모델이 내부 지식만으로 답변합니다.
- Web‑augmented: 모델이 공개 웹을 탐색할 수 있지만 사설 코퍼스는 사용할 수 없습니다.
- Corpus‑provided: 전체 문서 세트가 제공되며, 원시 PDF 형태이거나
ai_parse_document로 생성된 구조화된 JSON 형태일 수 있습니다.
- 검색 파이프라인 – 표준 밀집 벡터 검색(FAISS)에 경량 재정렬 단계를 결합하여 필요한 수치 필드를 포함하는 문서를 우선 순위로 둡니다.
- 평가 – 정확도는 정답과의 정확히 일치 여부로 측정하며, 수치가 1 % 이내로 근접하면 부분 점수를 부여합니다.
Source: …
결과 및 발견
| 설정 | 평균 정확도 |
|---|---|
| 파라메트릭만 | < 5 % |
| 웹‑보강 | < 12 % |
| 코퍼스 원본 (파싱 없음) | ≈ 34 % |
코퍼스 + ai_parse_document (구조화) | ≈ 40 % (상대 16 % 향상) |
- 전체 코퍼스가 제공되더라도 가장 강력한 LLM조차 40 %를 넘기기 어렵습니다. 이는 검색 + 추론 단계가 여전히 병목임을 의미합니다.
- 구조화된 표현(표를 키‑값 쌍으로 변환, 계층적 헤딩)은 모든 모델에서 일관되게 성능을 향상시켜, 원시 PDF가 현재 에이전트에게 너무 잡음이 많다는 것을 확인합니다.
- 모델 크기를 7 B에서 70 B 파라미터로 확장해도 수익이 감소합니다; 검색 품질과 문서 파싱이 더 중요합니다.
- 테이블‑특화 인코딩(예: 행‑열 위치 임베딩)은 수치 집계에 의존하는 질문에서 성능을 개선합니다.
실용적 시사점
- Enterprise search & analytics – 금융 또는 규제 관련 질의에 AI가 답변해야 하는 기업은 LLM만으로는 충분하지 않으며, 강력한 문서 파싱 파이프라인을 통합해야 합니다.
- Tooling focus – 고품질 OCR, 테이블 추출 및 구조화된 인덱싱(예: Databricks의
ai_parse_document)에 투자하면 기본 모델을 변경하지 않고도 즉각적인 효과를 얻을 수 있습니다. - Hybrid architectures – 벤치마크는 “검색‑우선, 파싱‑후‑추론” 스택을 제안합니다: 밀집 검색 → 구조화 파싱 → LLM 추론. 이 패턴은 신흥 엔터프라이즈 AI 플랫폼과 일치합니다.
- Risk management – 근거가 있는 작업에서 낮은 정확도는 엄격한 검증 없이 LLM을 중요한 금융 의사결정에 배포하는 위험성을 강조합니다.
제한 사항 및 향후 연구
- Domain specificity – 코퍼스가 Treasury Bulletins에만 국한되어 있어, 결과가 다른 도메인(법률, 의료 등)에 직접 적용되지 않을 수 있습니다.
- Question set size – 질문이 133개에 불과합니다; 더 크고 다양성 있는 세트가 경계 사례를 더 잘 포착할 수 있습니다.
- Retrieval baseline – 연구에서는 단일 dense‑vector 검색기를 사용했습니다; 하이브리드(BM25 + dense) 혹은 그래프 기반 검색을 탐색하면 성능을 더욱 향상시킬 수 있습니다.
- Human‑in‑the‑loop – 향후 연구에서는 적당한 인간 지원(예: 검색된 문서 확인)이 결과에 어떤 영향을 미치는지 평가하여 실용적인 기업 워크플로우로 나아갈 수 있습니다.
저자
- Krista Opsahl-Ong
- Arnav Singhvi
- Jasmine Collins
- Ivan Zhou
- Cindy Wang
- Ashutosh Baheti
- Owen Oertell
- Jacob Portes
- Sam Havens
- Erich Elsen
- Michael Bendersky
- Matei Zaharia
- Xing Chen
논문 정보
- arXiv ID: 2603.08655v1
- 카테고리: cs.AI, cs.CL, cs.IR
- 출판일: 2026년 3월 9일
- PDF: PDF 다운로드