[Paper] 기업 검색 증강 시스템을 위한 구조 및 다양성 인식 컨텍스트 버블 구축
발행: (2026년 1월 16일 오전 03:43 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2601.10681v1
Overview
이 논문은 기업 지식 베이스를 지원하는 Retrieval‑Augmented Generation (RAG) 시스템을 위한 프롬프트 컨텍스트를 구축하는 새로운 방법인 Structure‑and‑Diversity‑Aware Context Bubbles을 소개합니다. 문서의 고유한 계층 구조(섹션, 테이블, 행)를 존중하고 다양성을 명시적으로 강제함으로써, 이 접근법은 LLM 토큰 제한 내에 머무르면서도 전통적인 top‑k 검색보다 더 풍부하고 중복이 적은 정보를 제공하는 컴팩트하고 인용 준비가 된 “버블”을 생성합니다.
Key Contributions
- Structure‑informed retrieval: 문서 계층 구조와 작업‑조건부 사전 정보를 활용하여 개별 문장이 아닌 전체 섹션이나 논리적 구간을 우선순위에 두고 검색합니다.
- Diversity‑constrained selection: 관련성, 주변 커버리지, 중복 페널티를 균형 있게 조정하는 제약 최적화 문제를 공식화하여 다양한 구간 집합을 보장합니다.
- Context bubble construction algorithm: 예산을 고려한 결정적 파이프라인으로, 일관된 구간 번들을 구성하고 동시에 전체 검색 추적 정보를 제공해 감사 가능성을 확보합니다.
- Enterprise‑focused evaluation: 실제 기업 문서에 적용한 결과, 버블은 중복을 최대 약 40 % 감소시키고, 보조‑측면 커버리지를 향상시키며, 엄격한 토큰 예산 하에서도 답변 품질과 인용 충실도를 높임을 보여줍니다.
- Ablation insights: 구조적 사전 정보와 다양성 제약 모두가 필수적임을 입증했으며, 어느 하나라도 제거하면 커버리지는 감소하고 중복이 증가합니다.
방법론
- 앵커 식별 – 시스템은 먼저 표준 관련성 랭커를 실행하여 몇 개의 높은 점수를 받은 “앵커” 구간을 선택합니다(예: 쿼리와 직접 일치하는 섹션 제목).
- 구조적 사전 – 각 문서는 다중‑입자 그래프(섹션 → 단락 → 표 행)로 사전 처리됩니다. 사전은 특정 레벨의 구간이 특정 작업에 얼마나 유용한지를 인코딩합니다(예: 정책 조회 vs. 숫자 추출).
- 제한된 선택 – 앵커에서 시작하여 알고리즘은 세 가지 제약을 준수하면서 구간을 반복적으로 추가합니다:
- 관련성 – 쿼리와의 유사성에서의 한계 이득.
- 커버리지 – 버블에 아직 포함되지 않은 새로운 정보.
- 중복 페널티 – 중복되는 내용(예: 동일한 사실을 반복하는 두 단락)을 억제합니다.
토큰 예산(예: GPT‑4의 2 k 토큰)이 소진되면 프로세스가 종료됩니다.
- 추적 생성 – 각 선택 단계마다 점수 구성 요소를 기록하여 전체 검색 추적을 생성합니다. 이 추적은 검토하거나 재현할 수 있어 결정론적 튜닝 및 규정 준수 감사를 가능하게 합니다.
결과 및 발견
| 지표 | Top‑k 검색 | 컨텍스트 버블 (제안) |
|---|---|---|
| 중복 토큰 비율 | ~28 % | ~12 % |
| 2차 측면 커버리지 (2차 사실 회수) | 0.61 | 0.78 |
| 답변 BLEU / ROUGE | 0.71 / 0.68 | 0.78 / 0.74 |
| 인용 충실도 (정확한 출처 일치) | 0.64 | 0.84 |
| 쿼리당 평균 토큰 수 | 1,950 | 1,420 |
핵심 요약
- 버블 방법은 중복 텍스트를 크게 감소시켜 새로운 정보를 위한 토큰을 확보합니다.
- 전체 섹션이나 행을 가져오면 맥락 단서를 포착하여 하위 LLM 추론을 향상시키며, 특히 여러 관련 사실이 필요한 쿼리에서 효과적입니다.
- 결정론적 추적은 기업이 특정 구절이 사용된 이유를 감사하기 쉽게 하며, 이는 중요한 규정 준수 요구 사항입니다.
실용적 함의
- Cost Savings – 요청당 토큰 수가 적어지면 LLM 제공업체의 API 비용이 직접적으로 낮아지며, 특히 대량 기업 환경에서 효과적입니다.
- Improved User Experience – 답변이 더 완전하고 정확히 인용되므로 수동적인 사실 확인이 필요하지 않습니다.
- Compliance & Auditing – 전체 검색 추적이 내부 거버넌스 정책(예: GDPR, SOX)에서 요구하는 생성 콘텐츠의 출처 증명을 만족합니다.
- Plug‑and‑Play Integration – 버블 구성은 기존 벡터 스토어(FAISS, Milvus)와 랭킹 모델 위에 바로 올려 사용할 수 있으며, 문서 계층 구조를 노출하기 위한 가벼운 전처리 단계만 필요합니다.
- Better Multi‑modal Support – 이 방법이 표의 행 및 기타 구조화된 구간에서도 동작하기 때문에, 스프레드시트, 로그, 구성 파일 등을 추론해야 하는 검색 강화 에이전트에도 확장할 수 있습니다.
제한 사항 및 향후 작업
- 정확한 구조 추출에 대한 의존성 – 이 접근법은 문서가 계층적 스팬으로 올바르게 파싱된다고 가정합니다; 노이즈가 많은 OCR이나 형식이 잘못된 PDF는 성능을 저하시킬 수 있습니다.
- 최적화의 확장성 – 탐욕적 선택은 일반적인 기업 코퍼스에서는 빠르지만, 수십억 개의 스팬으로 확장하려면 보다 적극적인 가지치기나 근사 알고리즘이 필요할 수 있습니다.
- 기업 외 일반화 – 실험은 내부 기업 문서에 초점을 맞추었으며, 공개 웹 코퍼스나 다국어 데이터셋에 대한 추가 검증이 필요합니다.
- 동적 쿼리 – 현재 파이프라인은 각 쿼리를 독립적으로 처리합니다; 향후 작업에서는 대화형 컨텍스트를 위한 캐싱이나 점진적 버블 업데이트를 탐색할 수 있습니다.
저자
- Amir Khurshid
- Abhishek Sehgal
논문 정보
- arXiv ID: 2601.10681v1
- 카테고리: cs.AI
- 출판일: 2026년 1월 15일
- PDF: PDF 다운로드