[Paper] 검색된 컨텍스트가 RAG의 내부 표현을 형성하는 방법

발행: (2026년 2월 24일 오전 03:02 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2602.20091v1

Overview

검색‑증강 생성(RAG)은 대형 언어 모델(LLM)을 외부 문서 검색기와 결합하여 모델이 실시간으로 사실을 “조회”할 수 있게 합니다. 검색된 텍스트가 최종 답변에 영향을 미치는 것은 분명하지만, 그것들이 모델의 내부 은닉 상태를 어떻게 재구성하는지는 아직 알려지지 않았습니다. 이 논문은 이러한 은닉 표현을 파헤쳐, 검색된 문서의 관련성 및 배치가 LLM의 내부 처리 과정을 체계적으로 조정한다는 점을 보여주며, 이러한 변화가 생성된 답변의 품질을 예측한다는 것을 입증합니다.

핵심 기여

  • 표현‑중심 분석을 통해 네 개의 QA 벤치마크와 세 가지 인기 LLM(Llama‑2, Mistral, GPT‑3.5 등)에서 RAG 파이프라인을 조사함.
  • 통제된 실험으로 단일 관련 문서와 관련/비관련 문서가 혼합된 경우, 그리고 관련성 비율이 다른 다중 문서 집합의 영향을 분리함.
  • 계층‑별 진단을 통해 어떤 트랜스포머 계층이 검색된 컨텍스트에 가장 민감한지, 그리고 관련성이 네트워크를 통해 어떻게 전파되는지 밝힘.
  • 상관관계 연구에서 표현 드리프트(코사인 거리, SVCCA 등으로 측정)를 하위 작업 생성 메트릭(정확도, 사실성, 환각률)과 연결함.
  • 설계 가이드라인을 제시하여 보다 견고한 RAG 시스템을 구축하기 위한 방법으로, 예를 들어 관련성‑인식 가중치와 계층‑대상 통합 전략 등을 제시함.

Source:

방법론

  1. RAG 설정 – 저자들은 밀집 검색기(예: DPR)를 세 가지 기존 LLM에 연결합니다. 각 쿼리마다 검색기는 다음 중 하나를 반환합니다:

    • 단일 문서(관련 있거나 의도적으로 무관한)
    • 제어된 관련성 비율을 가진 k개의 문서 집합(예: 100 % 관련, 70 % 관련 + 30 % 잡음)
  2. 표현 추출 – 최종 언어 모델 헤드 이전의 모든 트랜스포머 레이어에서 은닉 상태를 캡처합니다. 두 가지 주요 프로브를 사용합니다:

    • 쿼리‑전용 베이스라인과의 코사인 유사도를 통해 “드리프트”를 정량화
    • 조건 간 서브스페이스 정렬을 비교하기 위한 SVCCA / CCA
  3. 행동 지표 – 동일한 입력을 전체 RAG 파이프라인에 전달하고, 생성된 답변을 표준 QA 지표(Exact Match, F1)와 환각 탐지기로 평가합니다.

  4. 분석 파이프라인

    • 관련성 영향: 검색된 문서가 실제로 관련 있는 경우와 무관한 경우의 표현 드리프트를 비교
    • 레이어 민감도: 모델이 외부 지식을 “흡수”하는 위치를 확인하기 위해 레이어별 드리프트를 플롯
    • 다중 문서 상호작용: 무관한 문서를 섞었을 때 신호가 희석되거나 증폭되는 정도를 측정

모든 실험은 재현 가능하며, 코드와 체크포인트는 MIT 라이선스 하에 공개됩니다.

Results & Findings

조건평균 표현 드리프트 (Δ)QA 정확도 ↑환각 ↓
관련 단일 문서0.42+12 % (vs. no‑retrieval)–8 %
관련 없는 단일 문서0.15–3 %+5 %
70 % 관련 / 30 % 노이즈 (k=5)0.31+6 %–3 %
30 % 관련 / 70 % 노이즈 (k=5)0.18–1 %+4 %
  • 초기 레이어(1‑4)는 비교적 안정적이며, 주로 쿼리를 인코딩합니다.
  • 중간‑고레벨 레이어(6‑12)는 가장 큰 드리프트를 보이며, 특히 검색된 문서가 관련 있을 때 두드러집니다. 여기서 모델은 외부 사실을 내부 지식과 결합합니다.
  • 관련 없는 문서는 중간 레이어에서 최고점에 달하는 “노이즈 드리프트”를 일으키지만 빠르게 사라져 환각 비율이 증가합니다.
  • 다중 문서 집합은 가산적으로 작용합니다: 각 관련 문서는 비례적인 변화를 기여하지만, 일정 노이즈 임계치를 넘으면 이점이 포화됩니다.

중간 레이어 표현에 대한 간단한 선형 프로브는 최종 답변의 정확성을 >80 % AUC로 예측할 수 있으며, 내부 상태 변화가 다운스트림 성능의 강력한 초기 지표임을 확인합니다.

실용적인 시사점

  • Dynamic Retriever Scoring: 검색된 문서를 LLM에 입력하기 관련성에 따라 가중치를 부여하거나, 낮은 관련성 문서는 초기에 제거하여 중간 레이어 표현이 오염되는 것을 방지합니다.
  • Layer‑Targeted Fusion: 검색된 컨텍스트를 입력 임베딩 단계만이 아니라 모델이 가장 수용성이 높은 레이어(예: Llama‑2‑7B의 레이어 8)에 삽입합니다. 이를 통해 추가 연산 없이도 사실 기반을 강화할 수 있습니다.
  • Debugging RAG Pipelines: 실시간으로 표현 드리프트를 모니터링하면 가벼운 정상성 검사를 수행할 수 있습니다—드리프트가 낮게 유지되면 검색기가 관련 없는 자료를 반환했을 가능성이 높으며, 이 경우 폴백이나 재검색을 트리거합니다.
  • Fine‑tuning Strategies: 모델의 중간 레이어 서브스페이스를 “관련 문서” 패턴에 맞추는 작은 어댑터를 학습시켜, 노이즈가 섞인 검색 결과에 대한 견고성을 높이고 프로덕션 챗봇에서의 환각을 감소시킵니다.
  • Evaluation Tooling: 공개된 분석 스크립트를 CI 파이프라인에 통합해 QA 봇을 자동으로 검사하고, 배포 전 검색에 의해 유발된 표현 이상을 자동으로 플래그합니다.

제한 사항 및 향후 연구

  • Retriever Quality Dependency: 실험에서는 강력한 dense retriever를 사용했으며, sparse 또는 hybrid retrieval 방법을 사용할 경우 결과가 달라질 수 있습니다.
  • Scale Gap: 약 13 B 파라미터까지의 모델만 조사했으며, 이러한 결과가 수백억 규모의 LLM에 어떻게 적용될지는 아직 불분명합니다.
  • Task Scope: 본 연구는 추출형 QA에 초점을 맞추었으며, 개방형 요약과 같은 생성 작업은 다른 레이어 동역학을 보일 수 있습니다.
  • Real‑World Noise: 합성된 “irrelevant” 문서는 잡음이 많은 웹 데이터의 전체 스펙트럼(예: 모순된 사실, 적대적 콘텐츠)을 충분히 포착하지 못할 수 있습니다.

향후 연구 방향으로는 멀티모달 RAG(예: 이미지‑텍스트 검색)로 분석을 확장하고, 강화학습 기반 retriever‑LLM 공동 학습을 탐색하며, 쿼리마다 최적의 통합 레이어를 동적으로 선택하는 자동 drift 기반 라우팅 메커니즘을 구축하는 것이 포함됩니다.

저자

  • Samuel Yeh
  • Sharon Li

논문 정보

  • arXiv ID: 2602.20091v1
  • 카테고리: cs.CL
  • 출판일: 2026년 2월 23일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »