[Paper] AdaGReS: 토큰 예산 기반 RAG를 위한 중복 인식 스코어링을 통한 적응형 탐욕적 컨텍스트 선택
Source: arXiv - 2512.25052v1
개요
검색‑증강 생성(RAG) 시스템은 외부 텍스트 조각(컨텍스트)을 끌어와 대형 언어 모델이 질문에 답하거나 작업을 수행하도록 돕습니다. 논문 AdaGReS는 놀라울 정도로 흔한 문제에 접근합니다: 상위‑k 검색 단계에서 많은 중복 또는 겹치는 청크가 반환되어 모델이 처리할 수 있는 제한된 토큰 예산을 낭비하고 답변 품질을 저하시킵니다. AdaGReS는 중복 인식 선택 알고리즘을 도입하여 관련성과 다양성의 균형을 맞추고, 자동으로 그 트레이드‑오프를 보정하며, 근접 최적 보장을 제공한다는 점이 특징입니다.
핵심 기여
- Redundancy‑aware objective: 컨텍스트 선택을 집합 수준 최적화로 공식화하여 쿼리와의 관련성을 보상하고 집합 내 유사성을 페널티합니다.
- Greedy token‑budgeted selection: 각 후보 청크에 대한 한계 이득을 도출하고 토큰 예산이 소진될 때까지 청크를 탐욕적으로 선택합니다.
- Adaptive relevance‑redundancy trade‑off: 후보 풀의 통계와 토큰 예산을 기반으로 λ 파라미터(관련성 vs. 중복성)의 폐쇄형, 인스턴스‑특정 보정식을 제안하여 수동 튜닝 필요성을 없앱니다.
- Theoretical guarantee: 현실적인 임베딩 유사성 가정 하에 목표 함수가 ε‑approximate submodular임을 보여주어 탐욕 알고리즘에 (1‑1/e‑ε) 근사 경계가 증명됩니다.
- Empirical validation: Natural Questions와 고중복성 바이오메디컬 약물 코퍼스에서 중복성 감소와 하위 QA 성능 향상이 일관되게 나타났음을 입증합니다.
방법론
-
후보 생성: 주어진 질의에 대해, 밀집 검색기는 N개의 텍스트 청크(예: 100)를 반환합니다. 각 청크는 관련성을 나타내는 임베딩 유사도 점수 sᵢ를 갖습니다.
-
점수 함수:
[ F(S) = \sum_{i\in S} s_i ;-; \lambda \sum_{i,j\in S, i<j} \text{sim}(c_i,c_j) ]
- 첫 번째 항은 관련성을 보상합니다.
- 두 번째 항은 청크 임베딩 간의 쌍별 코사인 유사도를 사용하여 중복성을 벌합니다.
- λ는 트레이드오프를 제어합니다.
-
적응형 λ: λ를 고정하는 대신, AdaGReS는 관련도 점수의 평균/분산과 토큰 예산 B로부터 λ를 분석적으로 계산합니다. 풀의 중복성이 높거나 예산이 촉박할 때 λ를 크게 하고, 관련성이 우세할 때는 작게 조정합니다.
-
예산 하에서의 탐욕 선택: 빈 집합에서 시작하여, 알고리즘은 총 토큰 수가 ≤ B를 유지하면서 marginal gain ΔF가 가장 큰 청크를 반복적으로 추가합니다. 목표 함수가 (대략) 서브모듈러이기 때문에 이 탐욕 과정은 거의 최적에 가깝습니다.
-
구현 세부 사항: 이 방법은 쌍별 유사도와 적응형 λ를 계산하는 몇 줄의 코드만 추가하면 기존 검색‑생성 파이프라인에 바로 적용할 수 있습니다. 검색기나 생성기를 재학습할 필요가 없습니다.
Results & Findings
| 데이터셋 | 베이스라인 (top‑k) | AdaGReS | 중복 감소 ↓ | 토큰 예산 사용 ↑ | 엔드‑투‑엔드 EM ↑ |
|---|---|---|---|---|---|
| Natural Questions | 10 chunks (≈ 800 tokens) | 8 chunks (≈ 650 tokens) | 32 % fewer duplicate tokens | 19 % tokens saved | +2.1 % exact match |
| Biomedical drug corpus | 12 chunks (≈ 900 tokens) | 7 chunks (≈ 540 tokens) | 45 % redundancy reduction | 40 % tokens saved | +3.4 % exact match |
- 중복 제어: AdaGReS는 일관되게 겹치는 청크를 더 적게 선택하여, 보다 다양한 정보를 위해 토큰을 확보합니다.
- 답변 품질: 적은 토큰 절감이 정확히 일치하는 비율(Exact‑Match)과 F1 점수의 가시적인 향상으로 이어집니다.
- 견고성: 300~1200 토큰의 다양한 예산 및 다양한 검색 모델(밀집 vs. BM25)에서도 AdaGReS는 그 이점을 유지하며, 적응형 λ가 실제로 풀 특성에 맞게 조정됨을 보여줍니다.
Practical Implications
- Cost‑effective inference: 중복 토큰을 제거함으로써 개발자는 API 가격이나 지연 제한과 같은 더 엄격한 토큰 한도 내에서 답변 품질을 희생하지 않고도 작업할 수 있습니다.
- Plug‑and‑play improvement: 기존 RAG 파이프라인(LangChain, LlamaIndex, Haystack 등)은 최소한의 코드 변경으로 AdaGReS를 통합할 수 있습니다—top‑k 슬라이스를 그리디 선택기로 교체하면 됩니다.
- Domain‑specific gains: 자연스럽게 중복이 높은 분야(법률 문서, 생물 의학 문헌, 제품 매뉴얼 등)에서는 중복 패널티가 더 큰 토큰 절감과 LLM을 위한 더 명확하고 간결한 컨텍스트를 제공합니다.
- Better user experience: 모델이 더 높은 품질의 비중복 증거를 받게 되므로 최종 사용자는 더 정확하고 “환각”이 적은 답변을 보게 됩니다.
- Scalable to large corpora: 알고리즘의 복잡도는 정렬에 O(N log N), 한계 이득 업데이트에 *O(N · k)*이며, 근사 최근접 이웃 검색과 결합하면 수천 개 후보에도 처리 가능할 정도로 실용적입니다.
제한 사항 및 향후 연구
- 쌍별 유사도 비용: 모든 쌍별 유사도를 계산하면 후보 풀에 대해 이차적으로 확장됩니다; 저자들은 근사 클러스터링으로 이를 완화하지만, 매우 큰 풀에서는 여전히 비용이 많이 들 수 있습니다.
- 임베딩 의존성: 중복 페널티는 청크 임베딩의 품질에 의존합니다; 임베딩이 좋지 않으면 유사도를 잘못 판단하여 중복을 과도하게 혹은 부족하게 페널티를 부과할 수 있습니다.
- 단일‑모달 초점: 현재 공식은 텍스트 청크를 전제로 합니다; 멀티모달 증거(표, 그림, 코드 스니펫)로 확장하려면 새로운 유사도 측정이 필요합니다.
- 사용자‑제어 트레이드‑오프: 적응형 λ가 수동 튜닝을 없애지만, 일부 응용에서는 관련성 vs. 다양성에 대한 명시적 제어를 원할 수 있습니다—향후 작업에서는 상위 수준의 “예산 공격성” 조절기를 제공할 수 있습니다.
- 엔드‑투‑엔드 학습: 선택 목표를 미분 가능한 검색‑생성 루프에 통합하면 성능을 더욱 향상시킬 수 있으며, 이는 저자들이 후속 연구를 위해 제안한 방향입니다.
저자
- Chao Peng
- Bin Wang
- Zhilei Long
- Jinfang Sheng
논문 정보
- arXiv ID: 2512.25052v1
- 카테고리: cs.CL, cs.AI, cs.IR
- 발행일: 2025년 12월 31일
- PDF: PDF 다운로드