[Paper] 기업 검색 증강 시스템을 위한 구조 및 다양성 인식 컨텍스트 버블 구축

발행: (2026년 1월 16일 오전 03:43 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.10681v1

Overview

이 논문은 기업 지식 베이스를 지원하는 Retrieval‑Augmented Generation (RAG) 시스템을 위한 프롬프트 컨텍스트를 구축하는 새로운 방법인 Structure‑and‑Diversity‑Aware Context Bubbles을 소개합니다. 문서의 고유한 계층 구조(섹션, 테이블, 행)를 존중하고 다양성을 명시적으로 강제함으로써, 이 접근법은 LLM 토큰 제한 내에 머무르면서도 전통적인 top‑k 검색보다 더 풍부하고 중복이 적은 정보를 제공하는 컴팩트하고 인용 준비가 된 “버블”을 생성합니다.

Key Contributions

  • Structure‑informed retrieval: 문서 계층 구조와 작업‑조건부 사전 정보를 활용하여 개별 문장이 아닌 전체 섹션이나 논리적 구간을 우선순위에 두고 검색합니다.
  • Diversity‑constrained selection: 관련성, 주변 커버리지, 중복 페널티를 균형 있게 조정하는 제약 최적화 문제를 공식화하여 다양한 구간 집합을 보장합니다.
  • Context bubble construction algorithm: 예산을 고려한 결정적 파이프라인으로, 일관된 구간 번들을 구성하고 동시에 전체 검색 추적 정보를 제공해 감사 가능성을 확보합니다.
  • Enterprise‑focused evaluation: 실제 기업 문서에 적용한 결과, 버블은 중복을 최대 약 40 % 감소시키고, 보조‑측면 커버리지를 향상시키며, 엄격한 토큰 예산 하에서도 답변 품질과 인용 충실도를 높임을 보여줍니다.
  • Ablation insights: 구조적 사전 정보와 다양성 제약 모두가 필수적임을 입증했으며, 어느 하나라도 제거하면 커버리지는 감소하고 중복이 증가합니다.

방법론

  1. 앵커 식별 – 시스템은 먼저 표준 관련성 랭커를 실행하여 몇 개의 높은 점수를 받은 “앵커” 구간을 선택합니다(예: 쿼리와 직접 일치하는 섹션 제목).
  2. 구조적 사전 – 각 문서는 다중‑입자 그래프(섹션 → 단락 → 표 행)로 사전 처리됩니다. 사전은 특정 레벨의 구간이 특정 작업에 얼마나 유용한지를 인코딩합니다(예: 정책 조회 vs. 숫자 추출).
  3. 제한된 선택 – 앵커에서 시작하여 알고리즘은 세 가지 제약을 준수하면서 구간을 반복적으로 추가합니다:
    • 관련성 – 쿼리와의 유사성에서의 한계 이득.
    • 커버리지 – 버블에 아직 포함되지 않은 새로운 정보.
    • 중복 페널티 – 중복되는 내용(예: 동일한 사실을 반복하는 두 단락)을 억제합니다.
      토큰 예산(예: GPT‑4의 2 k 토큰)이 소진되면 프로세스가 종료됩니다.
  4. 추적 생성 – 각 선택 단계마다 점수 구성 요소를 기록하여 전체 검색 추적을 생성합니다. 이 추적은 검토하거나 재현할 수 있어 결정론적 튜닝 및 규정 준수 감사를 가능하게 합니다.

결과 및 발견

지표Top‑k 검색컨텍스트 버블 (제안)
중복 토큰 비율~28 %~12 %
2차 측면 커버리지 (2차 사실 회수)0.610.78
답변 BLEU / ROUGE0.71 / 0.680.78 / 0.74
인용 충실도 (정확한 출처 일치)0.640.84
쿼리당 평균 토큰 수1,9501,420

핵심 요약

  • 버블 방법은 중복 텍스트를 크게 감소시켜 새로운 정보를 위한 토큰을 확보합니다.
  • 전체 섹션이나 행을 가져오면 맥락 단서를 포착하여 하위 LLM 추론을 향상시키며, 특히 여러 관련 사실이 필요한 쿼리에서 효과적입니다.
  • 결정론적 추적은 기업이 특정 구절이 사용된 이유를 감사하기 쉽게 하며, 이는 중요한 규정 준수 요구 사항입니다.

실용적 함의

  • Cost Savings – 요청당 토큰 수가 적어지면 LLM 제공업체의 API 비용이 직접적으로 낮아지며, 특히 대량 기업 환경에서 효과적입니다.
  • Improved User Experience – 답변이 더 완전하고 정확히 인용되므로 수동적인 사실 확인이 필요하지 않습니다.
  • Compliance & Auditing – 전체 검색 추적이 내부 거버넌스 정책(예: GDPR, SOX)에서 요구하는 생성 콘텐츠의 출처 증명을 만족합니다.
  • Plug‑and‑Play Integration – 버블 구성은 기존 벡터 스토어(FAISS, Milvus)와 랭킹 모델 위에 바로 올려 사용할 수 있으며, 문서 계층 구조를 노출하기 위한 가벼운 전처리 단계만 필요합니다.
  • Better Multi‑modal Support – 이 방법이 표의 행 및 기타 구조화된 구간에서도 동작하기 때문에, 스프레드시트, 로그, 구성 파일 등을 추론해야 하는 검색 강화 에이전트에도 확장할 수 있습니다.

제한 사항 및 향후 작업

  • 정확한 구조 추출에 대한 의존성 – 이 접근법은 문서가 계층적 스팬으로 올바르게 파싱된다고 가정합니다; 노이즈가 많은 OCR이나 형식이 잘못된 PDF는 성능을 저하시킬 수 있습니다.
  • 최적화의 확장성 – 탐욕적 선택은 일반적인 기업 코퍼스에서는 빠르지만, 수십억 개의 스팬으로 확장하려면 보다 적극적인 가지치기나 근사 알고리즘이 필요할 수 있습니다.
  • 기업 외 일반화 – 실험은 내부 기업 문서에 초점을 맞추었으며, 공개 웹 코퍼스나 다국어 데이터셋에 대한 추가 검증이 필요합니다.
  • 동적 쿼리 – 현재 파이프라인은 각 쿼리를 독립적으로 처리합니다; 향후 작업에서는 대화형 컨텍스트를 위한 캐싱이나 점진적 버블 업데이트를 탐색할 수 있습니다.

저자

  • Amir Khurshid
  • Abhishek Sehgal

논문 정보

  • arXiv ID: 2601.10681v1
  • 카테고리: cs.AI
  • 출판일: 2026년 1월 15일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...