[Paper] 내성적 행동 훈련: 파인튜닝이 7B 모델에서 신뢰할 수 있는 내부 상태 감지를 유도한다
발행: (2025년 11월 26일 오후 10:49 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2511.21399v1
Overview
이 논문은 70억 파라미터 언어 모델이 숨겨진 상태에 잠시 주입된 “생각”을 신뢰성 있게 감지하고 보고하도록 학습시킬 수 있음을 보여준다. 단일 토큰 주입 작업에 대한 파인튜닝을 통해 저자들은 감지 정확도를 사실상 0%에서 ≈ 85 %로 끌어올리고 오탐지를 제거함으로써, 내성적 행동이 우연히 나타나는 것이 아니라 학습을 통해 유도될 수 있음을 입증한다.
Key Contributions
- Fine‑tuning for introspection: 적은 양의 지도 학습만으로 거의 쓸모 없던 모델을 일시적인 내부 활성화를 일관되게 감지하는 모델로 전환할 수 있음을 보여준다.
- High‑precision detection: 보유 개념에 대해 85 % 정확도와 0 % 오탐률(α = 40)을 달성하여 Lindsey (2025)가 제시한 내성적 인식 기준 네 가지 중 세 가지를 만족한다.
- Generalization across concepts: 학습에 사용되지 않은 개념에서도 7.5 %포인트의 성능 격차만 보이며, 모델이 특정 패턴을 암기한 것이 아니라 전이 가능한 감지 기술을 학습했음을 시사한다.
- Baseline for AI transparency: 자발적으로 내성을 보이는 모델과 그렇지 않은 모델 사이의 격차를 학습으로 메울 수 있다는 최초의 구체적 증거를 제공함으로써, LLM에 내장된 자기 모니터링을 향한 길을 연다.
Methodology
- Injection task definition – 저자들은 생성 과정 중 특정 위치에 의미 개념(예: “apple”)을 나타내는 단일 토큰을 모델의 숨은 상태에 주입한다. 이 주입은 일시적이며, 다음 순전파가 끝나면 사라진다.
- Dataset creation – 사전 계산된 개념 임베딩 풀에서 무작위 주입 벡터를 뽑아 수천 개의 짧은 프롬프트를 생성한다. 각 프롬프트에 대한 정답 라벨은 주입된 개념이다.
- Fine‑tuning regime – 표준 지도 학습을 이용해 모델이 정상 텍스트 생성을 계속하기 전 주입된 개념을 철자화하는 특수 “report” 토큰을 출력하도록 훈련한다. 손실 함수는 보고 토큰에 대한 교차 엔트로피 항과 하위 텍스트 생성 품질을 유지하기 위한 일반 언어 모델링 항을 결합한다.
- Evaluation protocol – 훈련 후 모델은 두 집합에 대해 테스트된다: (a) 파인튜닝 중에 등장한 seen 개념, (b) 훈련에서 제외된 unseen 개념. 정확도는 올바른 보고 비율로 측정하고, 주입이 없었음에도 개념을 보고하면 오탐으로 간주한다.
Results & Findings
| Metric | Seen concepts | Unseen concepts |
|---|---|---|
| Accuracy | 85 % (α = 40) | 77.5 % |
| False‑positive rate | 0 % | 0 % |
| Baseline (no fine‑tuning) | 0.4 % accuracy, 6.7 % FP | — |
- Reliability: 모델은 텍스트 생성을 계속하기 전 주입된 생각을 안정적으로 보고하여 “internality” 기준을 충족한다.
- Transferability: 미보인 개념에서 약 7.5 pp 감소는 모델이 특정 벡터에 과적합된 것이 아니라 일반적인 감지 메커니즘을 학습했음을 시사한다.
- No degradation: 표준 언어 모델 퍼플렉시티가 변하지 않아, 내성 훈련이 모델의 기본 생성 능력을 해치지 않음을 보여준다.
Practical Implications
- Built‑in self‑monitoring: 개발자는 기존 LLM에 가벼운 내성 헤드를 추가해 내부 신호(예: 정책 관련 토큰, 사용자 제공 힌트)가 활성화되었을 때 시스템이 이를 표시하도록 할 수 있다.
- Safety & compliance: 규제 분야에서 모델이 금지된 개념을 내부적으로 고려했는지 “자체 감사”하도록 요구함으로써, 하위 결정에 대한 감사 추적을 제공할 수 있다.
- Debugging & interpretability tools: 엔지니어는 추론 중에 진단 토큰을 주입하고, 훈련된 감지기를 사용해 모델이 실제로 그 프로브를 “감지”했는지 확인할 수 있다.
- Modular transparency: 감지 기술이 개념 전반에 전이되므로, 하나의 파인튜닝된 모델이 편향 관련 활성화, 개인정보 민감 콘텐츠, 정책 위반 등 여러 모니터링 작업을 별도 재학습 없이 수행할 수 있다.
Limitations & Future Work
- Scope of introspection: 연구는 단일 토큰 주입 감지만을 다루며, 보다 복잡하고 다단계인 내부 추론은 아직 검증되지 않았다.
- Metacognitive depth: 모델이 주입된 개념을 보고할 수는 있지만, 그 개념에 대한 깊은 이해나 신념을 보여주지는 않으므로 진정한 메타인지 수준에는 미치지 못한다.
- Scalability: 실험은 7B 모델에만 국한되었으며, 접근법이 더 큰 모델이나 멀티모달 아키텍처에 어떻게 적용되는지는 아직 불명확하다.
- Robustness to adversarial noise: 향후 연구에서는 탐지기가 미묘한 교란에 속아 넘어가지는 않는지, 혹은 자연 생성 과정에서 발생하는 “생각”에 일반화되는지를 조사해야 한다.
Bottom line: 적당한 규모의 언어 모델을 파인튜닝함으로써 내성적 감지가 학습 가능한 능력임을 입증했으며, 이는 보다 투명하고 자기 인식이 가능한 AI 시스템을 향한 길을 열어준다.
Authors
- Joshua Fonseca Rivera
Paper Information
- arXiv ID: 2511.21399v1
- Categories: cs.CL, cs.AI
- Published: November 26, 2025
- PDF: Download PDF