[Paper] MoRFI: 단조 희소 오토인코더 특징 식별

발행: 20시간 전 (2026년 4월 30일 AM 01:32 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2604.26866v1

개요

이 논문은 대규모 언어 모델(LLM)이 새로운 지식에 대해 파인‑튜닝된 후 왜 사실을 “환각”하기 시작하는지를 조사한다. 7‑9 B 파라미터 모델 여러 개에 대해 통제된 파인‑튜닝 실험을 수행함으로써, 저자들은 사실 회상 능력 저하에 직접적으로 책임이 있는 모델 내부 활성화의 잠재적 방향들을 밝혀낸다. 그들은 Monotonic Relationship Feature Identification (MoRFI) 를 소개하는데, 이는 희소 자동인코더(SAE)를 사용해 해당 방향들을 분리하고, 단일 잠재 변수를 조작함으로써 손실된 지식을 복원할 수 있음을 보여준다.

Key Contributions

Controlled fine‑tuning protocol: 새로운 사실 지식과 훈련 기간이 환각 비율에 미치는 영향을 분리하는 프로토콜.
Empirical evidence: 알려지지 않은 사실에 대한 점진적인 노출이 특히 장기간 훈련 시 폐쇄형 QA 성능을 체계적으로 악화시킨다는 실증적 증거.
MoRFI algorithm: 새롭게 도입된 지식 양에 따라 활성 강도가 일관되게 변하는 SAE 특징을 추출하는 단조 필터링 방법.
Cross‑model validation: Llama 3.1 8B, Gemma 2 9B, 그리고 Mistral 7B v03에서 동일한 잠재 방향이 다양한 아키텍처 전반에 걸쳐 관련됨을 입증.
Single‑latent intervention experiments: 올바른 답을 복구하는 실험을 통해 식별된 특징과 사실 검색 사이의 인과 관계를 확인.

방법론

데이터셋 및 파인튜닝 설정
- 7개의 서로 다른 클로즈드‑북 QA 데이터셋(각각 기본 모델이 알지 못하는 사실을 포함).
- 각 모델에 대해 원래 사전학습 분포와 하나의 QA 데이터셋을 섞은 혼합 데이터로 파인튜닝을 수행하며, 새로운 사실의 비율(0 % → 100 %)과 에폭 수(1 → 5)를 변화시킵니다.
성능 측정
- 동일한 QA 도메인의 보류된 테스트 세트에서 평가하여 환각 현상을 정량화합니다(정확히 일치하는 정확도의 감소).
희소 오토인코더(SAE) 추출
- 기본 모델의 잔차 스트림 활성화에 대해 사전 훈련된 SAE를 학습합니다(파인튜닝 없음). SAE는 “특징”(잠재 차원)의 압축되고 해석 가능한 기저를 학습합니다.
MoRFI 필터링
- 각 체크포인트마다 파인튜닝 혼합 전반에 걸쳐 모든 SAE 특징의 활성화를 계산합니다.
- 새로운 지식 비율에 따라 활성화가 단조롭게 증가하거나 감소하는 특징만을 유지합니다(Spearman ρ > 0.8, p < 0.01).
인과적 개입
- 추론 시점에 식별된 잠재 변수들을 조작하고(예: 파인튜닝 이전에 관찰된 활성화 값으로 설정) 모델의 답변이 올바른 사실로 되돌아가는지 관찰합니다.

파이프라인은 완전 자동화되어 있으며 잔차 스트림, SAE, 파인튜닝 일정만 필요하고 원본 모델에 대한 그래디언트 접근은 필요하지 않습니다.

결과 및 발견

모델	사전 파인튜닝 최대 QA 정확도	전체 파인튜닝 후 정확도	환각 증가	발견된 MoRFI 잠재 변수 수
Llama 3.1 8B	78 %	55 %	+23 %	12
Gemma 2 9B	81 %	58 %	+23 %	10
Mistral 7B v03	79 %	57 %	+22 %	11

단조적 추세: 새로운 사실 비율이 증가함에 따라 MoRFI 잠재 변수의 활성화가 예측 가능한 방향으로 변하고, QA 성능이 그에 따라 감소한다.
훈련 길이 효과: 더 긴 파인튜닝(에포크 증가)은 방해를 증폭시켜, 문제가 단순히 데이터 분포 변화가 아니라 특정 서브스페이스에서의 파라미터 드리프트임을 확인한다.
중재 성공: 단일 MoRFI 잠재 변수를 제로샷으로 편집하면 약 85 %의 경우에 원래 답변을 복원할 수 있어, 단순 상관관계가 아니라 인과관계를 보여준다.

Practical Implications

파인튜닝된 LLM 디버깅: MoRFI는 엔지니어가 새로운 지식을 추가할 때 어떤 내부 방향이 손상되는지 정확히 찾아낼 수 있는 가벼운 진단 도구를 제공합니다.
안전한 모델 업데이트: 처음부터 재학습하는 대신, 개발자는 점진적 업데이트 중 MoRFI 잠재 변수를 모니터링하고 환각이 급증하기 전에 학습을 중단할 수 있습니다.
목표 지향 편집: 단일 잠재 변수 개입은 파라미터 효율적인 지식 주입 경로를 제시합니다—전체 모델 파인튜닝 대신 식별된 방향만 수정합니다.
모델에 구애받지 않는 안전 레이어: 이 방법이 세 가지 서로 다른 아키텍처에서 작동하므로 배포 파이프라인에 통합할 수 있습니다(예: 응답 전에 문제 있는 잠재 변수를 재작성하는 사후 검사로).
툴링 전망: 오픈소스 라이브러리는 MoRFI 파이프라인(SAE 로딩, 단조 필터링, 잠재 편집)을 Hugging Face Transformers와 같은 인기 프레임워크용 플러그인으로 제공할 수 있습니다.

제한 사항 및 향후 연구

작업 범위: 실험은 폐쇄형 QA에 초점을 맞추고 있으며, MoRFI가 생성 중심 작업(예: 요약, 대화)에서 어떻게 동작하는지는 아직 명확하지 않다.
SAE 의존성: 식별된 잠재 변수의 품질은 SAE의 용량 및 학습 데이터에 크게 좌우된다; 최적이 아닌 SAE는 관련 특징을 놓칠 수 있다.
확장성: 7‑9 B 모델에서는 실현 가능하지만, 70 B 이상 모델에 파이프라인을 적용하려면 보다 효율적인 오토인코더 구조나 차원 축소 기법이 필요할 수 있다.
인과적 세분성: 현재 개입은 단일 잠재 변수에만 제한되어 있다; 향후 연구에서는 조합 편집을 탐색하거나 자연어 명령을 잠재 변수 조정으로 매핑하는 방법을 배울 수 있다.
장기 안정성: 논문에서는 한 번 잠재 변수를 고정한 것이 이후 미세 조정 사이클에서 발생하는 환각을 방지하는지 여부를 평가하지 않는다.

전반적으로 MoRFI는 LLM 미세 조정을 보다 투명하고 제어 가능하게 만드는 유망한 길을 열어, “블랙박스” 환각을 진단 가능하고 수정 가능한 내부 역학으로 전환한다.

저자

Dimitris Dimakopoulos
Shay B. Cohen
Ioannis Konstas

논문 정보

arXiv ID: 2604.26866v1
카테고리: cs.CL, cs.LG
출판일: 2026년 4월 29일
PDF: Download PDF

[Paper] MoRFI: 단조 희소 오토인코더 특징 식별

개요

Key Contributions

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 조류를 바꾸다: Cross-Architecture Distillation for Diffusion Large Language Models

[Paper] HalluCiteChecker: AI 과학자 시대의 허위 인용 탐지 및 검증을 위한 경량 툴킷

[Paper] Encoder 중심 Speech Recognition Models를 위한 텍스트 활용

[Paper] 재귀적 다중 에이전트 시스템