[Paper] 검색된 컨텍스트가 RAG의 내부 표현을 형성하는 방법

발행: 3일 전 (2026년 2월 24일 오전 03:02 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.20091v1

Overview

검색‑증강 생성(RAG)은 대형 언어 모델(LLM)을 외부 문서 검색기와 결합하여 모델이 실시간으로 사실을 “조회”할 수 있게 합니다. 검색된 텍스트가 최종 답변에 영향을 미치는 것은 분명하지만, 그것들이 모델의 내부 은닉 상태를 어떻게 재구성하는지는 아직 알려지지 않았습니다. 이 논문은 이러한 은닉 표현을 파헤쳐, 검색된 문서의 관련성 및 배치가 LLM의 내부 처리 과정을 체계적으로 조정한다는 점을 보여주며, 이러한 변화가 생성된 답변의 품질을 예측한다는 것을 입증합니다.

핵심 기여

표현‑중심 분석을 통해 네 개의 QA 벤치마크와 세 가지 인기 LLM(Llama‑2, Mistral, GPT‑3.5 등)에서 RAG 파이프라인을 조사함.
통제된 실험으로 단일 관련 문서와 관련/비관련 문서가 혼합된 경우, 그리고 관련성 비율이 다른 다중 문서 집합의 영향을 분리함.
계층‑별 진단을 통해 어떤 트랜스포머 계층이 검색된 컨텍스트에 가장 민감한지, 그리고 관련성이 네트워크를 통해 어떻게 전파되는지 밝힘.
상관관계 연구에서 표현 드리프트(코사인 거리, SVCCA 등으로 측정)를 하위 작업 생성 메트릭(정확도, 사실성, 환각률)과 연결함.
설계 가이드라인을 제시하여 보다 견고한 RAG 시스템을 구축하기 위한 방법으로, 예를 들어 관련성‑인식 가중치와 계층‑대상 통합 전략 등을 제시함.

Source: …

방법론

RAG 설정 – 저자들은 밀집 검색기(예: DPR)를 세 가지 기존 LLM에 연결합니다. 각 쿼리마다 검색기는 다음 중 하나를 반환합니다:
- 단일 문서(관련 있거나 의도적으로 무관한)
- 제어된 관련성 비율을 가진 k개의 문서 집합(예: 100 % 관련, 70 % 관련 + 30 % 잡음)
표현 추출 – 최종 언어 모델 헤드 이전의 모든 트랜스포머 레이어에서 은닉 상태를 캡처합니다. 두 가지 주요 프로브를 사용합니다:
- 쿼리‑전용 베이스라인과의 코사인 유사도를 통해 “드리프트”를 정량화
- 조건 간 서브스페이스 정렬을 비교하기 위한 SVCCA / CCA
행동 지표 – 동일한 입력을 전체 RAG 파이프라인에 전달하고, 생성된 답변을 표준 QA 지표(Exact Match, F1)와 환각 탐지기로 평가합니다.
분석 파이프라인 –
- 관련성 영향: 검색된 문서가 실제로 관련 있는 경우와 무관한 경우의 표현 드리프트를 비교
- 레이어 민감도: 모델이 외부 지식을 “흡수”하는 위치를 확인하기 위해 레이어별 드리프트를 플롯
- 다중 문서 상호작용: 무관한 문서를 섞었을 때 신호가 희석되거나 증폭되는 정도를 측정

모든 실험은 재현 가능하며, 코드와 체크포인트는 MIT 라이선스 하에 공개됩니다.

Results & Findings

조건	평균 표현 드리프트 (Δ)	QA 정확도 ↑	환각 ↓
관련 단일 문서	0.42	+12 % (vs. no‑retrieval)	–8 %
관련 없는 단일 문서	0.15	–3 %	+5 %
70 % 관련 / 30 % 노이즈 (k=5)	0.31	+6 %	–3 %
30 % 관련 / 70 % 노이즈 (k=5)	0.18	–1 %	+4 %

초기 레이어(1‑4)는 비교적 안정적이며, 주로 쿼리를 인코딩합니다.
중간‑고레벨 레이어(6‑12)는 가장 큰 드리프트를 보이며, 특히 검색된 문서가 관련 있을 때 두드러집니다. 여기서 모델은 외부 사실을 내부 지식과 결합합니다.
관련 없는 문서는 중간 레이어에서 최고점에 달하는 “노이즈 드리프트”를 일으키지만 빠르게 사라져 환각 비율이 증가합니다.
다중 문서 집합은 가산적으로 작용합니다: 각 관련 문서는 비례적인 변화를 기여하지만, 일정 노이즈 임계치를 넘으면 이점이 포화됩니다.

중간 레이어 표현에 대한 간단한 선형 프로브는 최종 답변의 정확성을 >80 % AUC로 예측할 수 있으며, 내부 상태 변화가 다운스트림 성능의 강력한 초기 지표임을 확인합니다.

실용적인 시사점

Dynamic Retriever Scoring: 검색된 문서를 LLM에 입력하기 전 관련성에 따라 가중치를 부여하거나, 낮은 관련성 문서는 초기에 제거하여 중간 레이어 표현이 오염되는 것을 방지합니다.
Layer‑Targeted Fusion: 검색된 컨텍스트를 입력 임베딩 단계만이 아니라 모델이 가장 수용성이 높은 레이어(예: Llama‑2‑7B의 레이어 8)에 삽입합니다. 이를 통해 추가 연산 없이도 사실 기반을 강화할 수 있습니다.
Debugging RAG Pipelines: 실시간으로 표현 드리프트를 모니터링하면 가벼운 정상성 검사를 수행할 수 있습니다—드리프트가 낮게 유지되면 검색기가 관련 없는 자료를 반환했을 가능성이 높으며, 이 경우 폴백이나 재검색을 트리거합니다.
Fine‑tuning Strategies: 모델의 중간 레이어 서브스페이스를 “관련 문서” 패턴에 맞추는 작은 어댑터를 학습시켜, 노이즈가 섞인 검색 결과에 대한 견고성을 높이고 프로덕션 챗봇에서의 환각을 감소시킵니다.
Evaluation Tooling: 공개된 분석 스크립트를 CI 파이프라인에 통합해 QA 봇을 자동으로 검사하고, 배포 전 검색에 의해 유발된 표현 이상을 자동으로 플래그합니다.

제한 사항 및 향후 연구

Retriever Quality Dependency: 실험에서는 강력한 dense retriever를 사용했으며, sparse 또는 hybrid retrieval 방법을 사용할 경우 결과가 달라질 수 있습니다.
Scale Gap: 약 13 B 파라미터까지의 모델만 조사했으며, 이러한 결과가 수백억 규모의 LLM에 어떻게 적용될지는 아직 불분명합니다.
Task Scope: 본 연구는 추출형 QA에 초점을 맞추었으며, 개방형 요약과 같은 생성 작업은 다른 레이어 동역학을 보일 수 있습니다.
Real‑World Noise: 합성된 “irrelevant” 문서는 잡음이 많은 웹 데이터의 전체 스펙트럼(예: 모순된 사실, 적대적 콘텐츠)을 충분히 포착하지 못할 수 있습니다.

향후 연구 방향으로는 멀티모달 RAG(예: 이미지‑텍스트 검색)로 분석을 확장하고, 강화학습 기반 retriever‑LLM 공동 학습을 탐색하며, 쿼리마다 최적의 통합 레이어를 동적으로 선택하는 자동 drift 기반 라우팅 메커니즘을 구축하는 것이 포함됩니다.

저자

Samuel Yeh
Sharon Li

논문 정보

arXiv ID: 2602.20091v1
카테고리: cs.CL
출판일: 2026년 2월 23일
PDF: PDF 다운로드

[Paper] 검색된 컨텍스트가 RAG의 내부 표현을 형성하는 방법

Overview

핵심 기여

방법론

Results & Findings

실용적인 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 번역에서 복구: 벤치마크와 데이터셋의 자동 번역을 위한 효율적인 파이프라인

[Paper] SumTablets: 수메르 태블릿의 음역 데이터셋

[Paper] 추론 언어 모델에서 파라메트릭 지식 접근 개선

[Paper] GUI‑Libra: 네이티브 GUI 에이전트를 훈련시켜 행동 인식 감독 및 부분 검증 가능한 RL로 추론하고 행동하기