[Paper] Neuro-RIT: 뉴런 기반 Instruction Tuning을 통한 견고한 Retrieval‑Augmented Language Model

발행: 1개월 전 (2026년 4월 3일 오전 12:49 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2604.02194v1

번역할 텍스트를 제공해 주시면, 요청하신 대로 한국어로 번역해 드리겠습니다. 텍스트를 복사해서 여기 채팅창에 붙여 주세요.

개요

Neuro‑RIT는 검색 기반 언어 모델(RALM)을 잡음이 많거나 관련 없는 검색 구절에 대해 훨씬 더 회복력 있게 만드는 뉴런 수준의 지시 튜닝 기법을 도입합니다. “좋은” 컨텍스트와 “나쁜” 컨텍스트에 반응하는 정확한 뉴런을 찾아 제어함으로써, 기존 연구가 주로 의존하는 레이어 전체에 걸친 과도한 파인튜닝 없이도 강인성을 달성합니다.

주요 기여

Neuron‑guided mining: 귀속 점수를 사용하여 관련 컨텍스트를 처리하는 데 특화된 뉴런과 관련 없거나 잡음이 섞인 컨텍스트에 반응하는 뉴런을 구분합니다.
Two‑stage instruction tuning:
1. Noise‑suppression stage – 관련 없는 컨텍스트와 연결된 뉴런을 비활성화(또는 가중치를 낮춤)하여 효과적으로 “잡음 경로”를 차단합니다.
2. Evidence‑distillation stage – 소수의 레이어를 미세 조정하여 검색된 증거를 생성 과정에 더 잘 융합합니다.
Sparse, efficient adaptation: 모델 파라미터의 아주 작은 부분만 변경하므로 계산 및 메모리 오버헤드가 낮게 유지됩니다.
Broad empirical validation: 강력한 베이스라인 및 기존 강인성 기법(예: 드롭아웃 기반 정규화, 적대적 학습)과 비교했을 때, NaturalQuestions, TriviaQA, WebQuestions 등 여러 오픈 도메인 QA 벤치마크에서 일관된 성능 향상을 보여줍니다.

방법론

Attribution‑based neuron mining – 주어진 RALM에 대해 저자들은 관련 및 비관련 검색된 구절 배치를 사용해 순전파를 수행합니다. Gradient‑based attribution(예: Integrated Gradients)은 각 경우에 모델의 정답 로짓에 가장 크게 기여하는 은닉 상태 뉴런을 강조합니다.
Neuron partitioning – 뉴런은 세 그룹으로 클러스터링됩니다:
- Relevant‑only (좋은 컨텍스트에서는 높은 기여, 잡음에서는 낮은 기여)
- Irrelevant‑only (잡음이 많은 컨텍스트에서 높은 기여)
- Shared (두 경우 모두 활성)
Stage‑1: Noise suppression – 경량 정규화기가 Irrelevant‑only 뉴런의 가중치를 0에 가깝게 만들도록 강제하거나 게이팅 마스크를 적용하여, 잡음을 증폭시키는 경로를 효과적으로 차단합니다.
Stage‑2: Evidence distillation – 이후 모델을 “제공된 증거를 사용하라”는 명시적인 요청을 포함한 QA 프롬프트 집합에 대해 instruction‑tuning합니다. Relevant‑only와 Shared 뉴런이 위치한 레이어만 업데이트하여, 검색된 텍스트와 답변 생성 사이의 매핑을 더 긴밀하게 학습하도록 합니다.
Training loop – 두 단계는 동일한 instruction‑tuning 데이터셋에서 순차적으로 수행되며, 몇 번의 epoch(보통 < 5회)과 적당한 GPU 메모리(≈ 2 × 기본 모델 크기)만 필요합니다.

Results & Findings

Benchmark	Baseline RALM (바닐라 검색)	Neuro‑RIT	평균 Δ 정확도	노이즈 전용 검색 감소 (baseline → Neuro‑RIT)
NaturalQuestions	78.2 %	82.7 %	+4.5 %	‑12 % → ‑4 %
TriviaQA	81.5 %	85.9 %	+4.4 %	‑15 % → ‑5 %
WebQuestions	74.3 %	78.0 %	+3.7 %	‑10 % → ‑3 %

Neuro‑RIT는 RAG‑FineTune, FiD‑Robust, Adversarial Retrieval Augmentation와 같은 강력한 베이스라인보다 절대 정확도 기준으로 2–5 % 향상됩니다.
검색된 구절이 의도적으로 손상될 때(무작위 문장, 주제와 무관한 문서), 성능 감소가 대략 70 % 감소하여 노이즈 억제 효과를 확인할 수 있습니다.
파라미터 footprint: 전체 가중치의 약 0.8 %만 변경되어 추론 지연 오버헤드가 무시할 수준입니다.

실용적 함의

보다 신뢰할 수 있는 RAG 서비스: 외부 지식 베이스에 의존하는 배포(예: 고객 지원 봇, 코드 검색 어시스턴트)는 불완전한 검색 파이프라인을 견딜 수 있으며, 답변이 급격히 악화되지 않는다.
비용 효율적인 파인튜닝: Neuro‑RIT가 매우 적은 수의 뉴런만을 조정하기 때문에, 조직은 소규모 하드웨어(단일 GPU 파인튜닝)에서도 대형 모델을 적용할 수 있으며, 견고성 이점을 얻을 수 있다.
플러그‑앤‑플레이 호환성: 이 방법은 기존의 모든 검색 강화 아키텍처(RAG, FiD, REALM) 위에서 동작하므로 기존 제품에 바로 적용할 수 있는 업그레이드이다.
안전성 및 환각 감소: 관련 없는 컨텍스트를 증폭시키는 뉴런을 억제함으로써, 모델이 잡음이 많은 문서에서 사실을 환각할 가능성이 낮아진다. 이는 규제 산업(금융, 의료)에서 중요한 문제이다.

제한 사항 및 향후 연구

뉴런 기여도 품질: 이 접근법은 그래디언트 기반 기여도의 정확도에 의존한다; 노이즈가 많은 그래디언트는 뉴런을 오분류하여 최적이 아닌 마스킹을 초래할 수 있다.
도메인 이동: 실험은 오픈 도메인 QA에 초점을 맞추었으며, 요약, 코드 생성 등 다른 작업으로 확장하려면 작업별 지시 프롬프트가 필요할 수 있다.
극히 큰 모델에 대한 확장성: 방법은 가볍지만 70 B 파라미터 이상의 모델에 대해 뉴런을 탐색하는 것은 여전히 메모리 집약적일 수 있다; 향후 연구에서는 근사 또는 저‑랭크 기여도 기법을 탐색할 수 있다.
동적 검색 환경: 현재 파이프라인은 미세조정 동안 정적 검색 구성요소를 가정한다; 온라인 검색 업데이트(예: 진화하는 코퍼스) 통합은 아직 해결되지 않은 과제이다.

핵심 요점: Neuro‑RIT는 모델 적응을 뉴런 수준에서 정밀하게 바라보는 것이 검색 강화 LLM의 견고성을 크게 향상시킬 수 있음을 보여주며, 대규모 연산 자원 없이도 개발자들이 보다 신뢰할 수 있는 AI 어시스턴트를 구축할 실용적인 길을 제시한다.

저자

Jaemin Kim
Jae O Lee
Sumyeong Ahn
Seo Yeon Park

논문 정보

arXiv ID: 2604.02194v1
분류: cs.CL, cs.AI
출판일: 2026년 4월 2일
PDF: PDF 다운로드

[Paper] Neuro-RIT: 뉴런 기반 Instruction Tuning을 통한 견고한 Retrieval‑Augmented Language Model

개요

주요 기여

방법론

Results & Findings

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Autoregressive Language Models에서 기억의 서명 학습

[Paper] Low Resource Abstractive Summarization을 위한 Reliability Gated Multi-Teacher Distillation

[Paper] PRISM: LLM 기반 고정밀 주제를 위한 시맨틱 클러스터링

[Paper] LLMs의 Valence-Arousal 서브스페이스: 원형 감정 기하학 및 다중 행동 제어