[Paper] OfficeQA Pro: 엔터프라이즈 벤치마크 for 엔드투엔드 기반 추론

발행: 16시간 전 (2026년 3월 10일 AM 02:34 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2603.08655v1

번역을 진행하려면 원본 텍스트(예: 초록, 본문, 섹션 등)를 제공해 주시겠어요?
텍스트를 알려주시면 요청하신 대로 한국어로 번역해 드리겠습니다.

Overview

이 논문은 OfficeQA Pro라는 새로운 벤치마크를 소개한다. 이 벤치마크는 AI 에이전트가 방대한 실제 문서 컬렉션—거의 한 세기에 걸친 미국 재무부 Bulletin(≈ 89 k 페이지, 26 M 숫자값)—에 대해 grounded 추론을 수행하도록 압박한다. 일반적인 QA 테스트가 단일 구절에 의존하는 것과 달리, OfficeQA Pro는 모델이 자유 텍스트와 표 형식 소스 모두에서 정보를 검색하고, 파싱하며, 분석적으로 결합하도록 강제한다. 이러한 작업은 금융 분석, 규정 준수, 내부 지식 베이스와 같은 기업 환경에서 흔히 발생한다.

주요 기여

Enterprise‑scale corpus: 공개적으로 이용 가능한 이질적인 데이터셋(텍스트 + 표)을 100 년간의 재무 데이터에 걸쳐 정리했습니다.
Grounded multi‑document QA: 정밀 추출, 문서 간 검색, 수치 추론이 필요한 133개의 질문을 설계했습니다.
Comprehensive evaluation: 파라미터 전용, 웹 보강, 직접 코퍼스 접근 세 가지 조건에서 주요 LLM(Claude Opus 4.6, GPT‑5.4, Gemini 3.1 Pro)을 벤치마크했습니다.
Structured representation boost: Databricks의 ai_parse_document로 생성된 파싱된 구조화된 문서 뷰를 에이전트가 활용할 때 16.1 %의 상대 성능 향상을 입증했습니다.
Ablation studies: 모델 크기, 표 인코딩, 검색 전략, 테스트 시 스케일링이 정확도에 미치는 영향을 분석했습니다.

방법론

코퍼스 준비 – 저자들은 재무 공보 전체 아카이브를 스크랩하고, OCR‑처리된 스캔 페이지와 표를 검색 가능한 인덱스로 추출했습니다.
질문 설계 – 133개의 질의 각각은 최소 두 개 이상의 서로 다른 문서를 필요로 하고, 텍스트와 수치 추론을 혼합하도록 설계되었습니다(예: “1975‑1979 회계연도에 10년 만기 채권의 평균 금리는 얼마였나요?”).
에이전트 구성 – 세 가지 실험 설정을 사용했습니다:
- Parametric only: 모델이 내부 지식만으로 답변합니다.
- Web‑augmented: 모델이 공개 웹을 탐색할 수 있지만 사설 코퍼스는 사용할 수 없습니다.
- Corpus‑provided: 전체 문서 세트가 제공되며, 원시 PDF 형태이거나 ai_parse_document 로 생성된 구조화된 JSON 형태일 수 있습니다.
검색 파이프라인 – 표준 밀집 벡터 검색(FAISS)에 경량 재정렬 단계를 결합하여 필요한 수치 필드를 포함하는 문서를 우선 순위로 둡니다.
평가 – 정확도는 정답과의 정확히 일치 여부로 측정하며, 수치가 1 % 이내로 근접하면 부분 점수를 부여합니다.

Source: …

결과 및 발견

설정	평균 정확도
파라메트릭만	< 5 %
웹‑보강	< 12 %
코퍼스 원본 (파싱 없음)	≈ 34 %
코퍼스 + `ai_parse_document` (구조화)	≈ 40 % (상대 16 % 향상)

전체 코퍼스가 제공되더라도 가장 강력한 LLM조차 40 %를 넘기기 어렵습니다. 이는 검색 + 추론 단계가 여전히 병목임을 의미합니다.
구조화된 표현(표를 키‑값 쌍으로 변환, 계층적 헤딩)은 모든 모델에서 일관되게 성능을 향상시켜, 원시 PDF가 현재 에이전트에게 너무 잡음이 많다는 것을 확인합니다.
모델 크기를 7 B에서 70 B 파라미터로 확장해도 수익이 감소합니다; 검색 품질과 문서 파싱이 더 중요합니다.
테이블‑특화 인코딩(예: 행‑열 위치 임베딩)은 수치 집계에 의존하는 질문에서 성능을 개선합니다.

실용적 시사점

Enterprise search & analytics – 금융 또는 규제 관련 질의에 AI가 답변해야 하는 기업은 LLM만으로는 충분하지 않으며, 강력한 문서 파싱 파이프라인을 통합해야 합니다.
Tooling focus – 고품질 OCR, 테이블 추출 및 구조화된 인덱싱(예: Databricks의 ai_parse_document)에 투자하면 기본 모델을 변경하지 않고도 즉각적인 효과를 얻을 수 있습니다.
Hybrid architectures – 벤치마크는 “검색‑우선, 파싱‑후‑추론” 스택을 제안합니다: 밀집 검색 → 구조화 파싱 → LLM 추론. 이 패턴은 신흥 엔터프라이즈 AI 플랫폼과 일치합니다.
Risk management – 근거가 있는 작업에서 낮은 정확도는 엄격한 검증 없이 LLM을 중요한 금융 의사결정에 배포하는 위험성을 강조합니다.

제한 사항 및 향후 연구

Domain specificity – 코퍼스가 Treasury Bulletins에만 국한되어 있어, 결과가 다른 도메인(법률, 의료 등)에 직접 적용되지 않을 수 있습니다.
Question set size – 질문이 133개에 불과합니다; 더 크고 다양성 있는 세트가 경계 사례를 더 잘 포착할 수 있습니다.
Retrieval baseline – 연구에서는 단일 dense‑vector 검색기를 사용했습니다; 하이브리드(BM25 + dense) 혹은 그래프 기반 검색을 탐색하면 성능을 더욱 향상시킬 수 있습니다.
Human‑in‑the‑loop – 향후 연구에서는 적당한 인간 지원(예: 검색된 문서 확인)이 결과에 어떤 영향을 미치는지 평가하여 실용적인 기업 워크플로우로 나아갈 수 있습니다.

저자

Krista Opsahl-Ong
Arnav Singhvi
Jasmine Collins
Ivan Zhou
Cindy Wang
Ashutosh Baheti
Owen Oertell
Jacob Portes
Sam Havens
Erich Elsen
Michael Bendersky
Matei Zaharia
Xing Chen

논문 정보

arXiv ID: 2603.08655v1
카테고리: cs.AI, cs.CL, cs.IR
출판일: 2026년 3월 9일
PDF: PDF 다운로드

[Paper] OfficeQA Pro: 엔터프라이즈 벤치마크 for 엔드투엔드 기반 추론

Overview

주요 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] LycheeCluster: 효율적인 장기 컨텍스트 추론을 위한 구조 인식 청킹 및 계층적 KV 인덱싱

[논문] 스케일 스페이스 확산

[Paper] Impermanent: 시간 시계열 예측에서 시간 일반화를 위한 실시간 벤치마크

[Paper] 고정밀 및 저지연 모델 학습을 위한 Split Federated Learning 아키텍처