[Paper] 환각 억제: 정보이론적 보장을 통한 RAG 시스템의 Merlin-Arthur 프로토콜

발행: (2025년 12월 12일 오후 11:50 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.11614v1

Overview

Retrieval‑augmented generation (RAG) 시스템은 검색 컴포넌트와 대형 언어 모델(LLM)을 결합해 외부 문서에 근거한 답변을 생성합니다. 하지만 현재 대부분의 파이프라인은 검색된 텍스트를 “부드러운 힌트”로만 취급하고, 증명 가능한 근거로 활용하지 않아 컨텍스트가 부족하거나 오해를 일으킬 경우 환각이 발생합니다.
논문 **“Bounding Hallucinations: Information‑Theoretic Guarantees for RAG Systems via Merlin‑Arthur Protocols”**는 전체 RAG 파이프라인을 인터랙티브 증명 시스템으로 모델링하는 새로운 학습 방식을 제안합니다. 이를 통해 생성자는 증거가 실제로 답변을 뒷받침할 때만 수용하고, 그렇지 않을 경우 거부할 수 있는 원칙적인 방법을 얻게 됩니다.

Key Contributions

  • Interactive‑Proof‑Style Supervision: Merlin‑Arthur (M/A) 프로토콜을 RAG에 적용하여, 생성기(Arthur)가 유용한 증거(Merlin)와 적대적인 오해 증거(Morgana)로부터 학습하도록 설계했습니다.
  • Linear‑Time XAI Hook: 빠른 설명 가능성 방법을 사용해 가장 영향력 있는 증거 구간을 찾아내고, 학습 중에 Merlin/Morgana가 이를 실시간으로 편집할 수 있게 했습니다.
  • Explained Information Fraction (EIF): 설명 충실도와 순수 예측 오류를 분리하는 새로운 지표로, 모델 용량에 대한 상호 정보 보장을 정규화합니다.
  • Retriever Boost via Hard Positives/Negatives: 자동으로 “hard” 학습 예시를 생성해 검색기의 Recall 및 Mean Reciprocal Rank (MRR)를 인간이 라벨링한 답변 불가능 쿼리 없이도 향상시켰습니다.
  • Empirical Validation: 세 가지 RAG 벤치마크와 두 종류의 LLM(소형·대형)에서 근거성, 완전성, 타당성 및 거부 행동이 일관되게 개선된 것을 보여줍니다.

Methodology

  1. Setup the Proof Game

    • Arthur = LLM 생성기.
    • Merlin = 올바른 증거 조각을 제공하는 도우미.
    • Morgana = 잘못되었거나 무관한 조각을 삽입하는 적대자.
  2. Evidence‑Focused XAI

    • 경량 어트리뷰션 기법(예: 그래디언트 기반 토큰 중요도)을 선형 시간에 실행해, Arthur의 답변에 가장 큰 영향을 미치는 검색 구절을 식별합니다.
    • Merlin은 영향력이 낮은 토큰을 더 지지하는 텍스트로 교체하고, Morgana는 영향력이 큰 토큰을 손상시켜 “hard” negative를 만듭니다.
  3. Training Loop

    • Arthur는 출처가 알려지지 않은 질문과 혼합된 증거(일부는 Merlin, 일부는 Morgana) 를 받습니다.
    • 다음을 학습합니다:
      a) Answer: 증거가 올바른 답변을 집합적으로 뒷받침할 때 답변을 생성.
      b) Reject: 증거가 부족하거나 모순될 경우 “I don’t know”를 출력.
      c) Ground: XAI 모듈이 식별한 정확한 증거 구간에 답변을 근거시킴.
  4. Evaluation Framework

    • 표준 RAG 지표(accuracy, recall, MRR)와 함께 EIF를 사용합니다. EIF는 질문·증거·답변 사이의 상호 정보 중 모델의 어트리뷰션 맵으로 설명된 비율을 정량화합니다.

Results & Findings

Dataset / ModelBaseline RAGM/A‑trained RAG
HotpotQA (BERT‑based)Groundedness 68 %78 % (+10 pp)
NaturalQuestions (GPT‑2)Reject‑rate (unanswerable) 22 %35 % (+13 pp)
FiQA (LLaMA‑7B)MRR 0.410.48 (+0.07)
Retriever Recall71 %78 % (+7 pp)
Explained Information Fraction (EIF)0.420.58 (+0.16)
  • Reduced Hallucinations: 제공된 증거와 모순되는 답변 비율이 모든 벤치마크에서 약 30 % 감소했습니다.
  • Better Reject Behavior: 증거가 모호할 때 모델이 “I don’t know”라고 말하도록 학습했으며, 이는 이전에 수작업으로 만든 답변 불가능 예시가 필요했던 기능을 자동화한 것입니다.
  • Retriever Gains: 자동 생성된 hard positive/negative를 활용해 별도 라벨링 없이 top‑k recall이 향상되었습니다.

Practical Implications

  • More Trustworthy Assistants: 챗봇, 코드 어시스턴트, 지식베이스 Q&A 등을 개발하는 팀은 소스 자료가 충분하지 않을 때 답변을 거부하도록 시스템을 신뢰할 수 있어, 잘못된 정보 제공 위험을 줄일 수 있습니다.
  • Zero‑Shot Unanswerable Detection: 별도의 “unanswerable” 데이터셋을 구축할 필요 없이 M/A 프레임워크가 실시간으로 적대적 예시를 생성하므로 라벨링 비용과 시간이 절감됩니다.
  • Plug‑and‑Play Retriever Upgrade: 기존 검색기를 자동 생성된 hard 예시로 미세조정하면 즉시 Recall 개선 효과를 얻을 수 있습니다.
  • Explainability‑Driven Debugging: 모델 답변이 특정 증거 구간에 연결되기 때문에 UI에 해당 구간을 표시해 감사 및 디버깅이 용이합니다.
  • Scalable to Different Model Sizes: 약 300 M 파라미터의 소형 모델부터 7 B 규모의 대형 모델까지 모두 적용 가능하므로 스타트업부터 대기업까지 별도 고성능 컴퓨팅 없이 도입할 수 있습니다.

Limitations & Future Work

  • Linear‑Time XAI Approximation: 속도를 위해 선택한 어트리뷰션 방법은 일부 정확성을 희생합니다. 더 정밀하지만 느린 설명 기법을 도입하면 EIF 경계를 더욱 강화할 수 있습니다.
  • Benchmark Scope: 실험은 영어 QA 데이터셋에 국한되었습니다. 다국어 또는 이미지·표와 같은 멀티모달 검색에 대한 검증은 아직 진행되지 않았습니다.
  • Proof‑System Overhead: 적대적 학습 루프가 에포크당 추가 연산을 요구하므로, 분산 학습 없이 매우 큰 모델에 적용하기엔 비용이 부담될 수 있습니다.
  • Theoretical Guarantees vs. Real‑World Noise: 정보 이론적 보장은 잘 정의된 검색 분포를 전제로 합니다. 노이즈가 많은 웹 규모 코퍼스에서는 타당성 보장이 약해질 가능성이 있습니다.

Future directions에는 멀티모달 검색을 위한 M/A 프로토콜 확장, 더 강력한 어트리뷰션 기법 통합, 그리고 Arthur가 향상됨에 따라 Morgana의 공격 난이도를 단계적으로 높이는 커리큘럼 학습 탐색이 포함됩니다.

Authors

  • Björn Deiseroth
  • Max Henning Höth
  • Kristian Kersting
  • Letitia Parcalabescu

Paper Information

  • arXiv ID: 2512.11614v1
  • Categories: cs.CL, cs.AI, cs.LG
  • Published: December 12, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »