[Paper] 내성적 행동 훈련: 파인튜닝이 7B 모델에서 신뢰할 수 있는 내부 상태 감지를 유도한다

발행: (2025년 11월 26일 오후 10:49 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2511.21399v1

Overview

이 논문은 70억 파라미터 언어 모델이 숨겨진 상태에 잠시 주입된 “생각”을 신뢰성 있게 감지하고 보고하도록 학습시킬 수 있음을 보여준다. 단일 토큰 주입 작업에 대한 파인튜닝을 통해 저자들은 감지 정확도를 사실상 0%에서 ≈ 85 %로 끌어올리고 오탐지를 제거함으로써, 내성적 행동이 우연히 나타나는 것이 아니라 학습을 통해 유도될 수 있음을 입증한다.

Key Contributions

  • Fine‑tuning for introspection: 적은 양의 지도 학습만으로 거의 쓸모 없던 모델을 일시적인 내부 활성화를 일관되게 감지하는 모델로 전환할 수 있음을 보여준다.
  • High‑precision detection: 보유 개념에 대해 85 % 정확도와 0 % 오탐률(α = 40)을 달성하여 Lindsey (2025)가 제시한 내성적 인식 기준 네 가지 중 세 가지를 만족한다.
  • Generalization across concepts: 학습에 사용되지 않은 개념에서도 7.5 %포인트의 성능 격차만 보이며, 모델이 특정 패턴을 암기한 것이 아니라 전이 가능한 감지 기술을 학습했음을 시사한다.
  • Baseline for AI transparency: 자발적으로 내성을 보이는 모델과 그렇지 않은 모델 사이의 격차를 학습으로 메울 수 있다는 최초의 구체적 증거를 제공함으로써, LLM에 내장된 자기 모니터링을 향한 길을 연다.

Methodology

  1. Injection task definition – 저자들은 생성 과정 중 특정 위치에 의미 개념(예: “apple”)을 나타내는 단일 토큰을 모델의 숨은 상태에 주입한다. 이 주입은 일시적이며, 다음 순전파가 끝나면 사라진다.
  2. Dataset creation – 사전 계산된 개념 임베딩 풀에서 무작위 주입 벡터를 뽑아 수천 개의 짧은 프롬프트를 생성한다. 각 프롬프트에 대한 정답 라벨은 주입된 개념이다.
  3. Fine‑tuning regime – 표준 지도 학습을 이용해 모델이 정상 텍스트 생성을 계속하기 주입된 개념을 철자화하는 특수 “report” 토큰을 출력하도록 훈련한다. 손실 함수는 보고 토큰에 대한 교차 엔트로피 항과 하위 텍스트 생성 품질을 유지하기 위한 일반 언어 모델링 항을 결합한다.
  4. Evaluation protocol – 훈련 후 모델은 두 집합에 대해 테스트된다: (a) 파인튜닝 중에 등장한 seen 개념, (b) 훈련에서 제외된 unseen 개념. 정확도는 올바른 보고 비율로 측정하고, 주입이 없었음에도 개념을 보고하면 오탐으로 간주한다.

Results & Findings

MetricSeen conceptsUnseen concepts
Accuracy85 % (α = 40)77.5 %
False‑positive rate0 %0 %
Baseline (no fine‑tuning)0.4 % accuracy, 6.7 % FP
  • Reliability: 모델은 텍스트 생성을 계속하기 주입된 생각을 안정적으로 보고하여 “internality” 기준을 충족한다.
  • Transferability: 미보인 개념에서 약 7.5 pp 감소는 모델이 특정 벡터에 과적합된 것이 아니라 일반적인 감지 메커니즘을 학습했음을 시사한다.
  • No degradation: 표준 언어 모델 퍼플렉시티가 변하지 않아, 내성 훈련이 모델의 기본 생성 능력을 해치지 않음을 보여준다.

Practical Implications

  • Built‑in self‑monitoring: 개발자는 기존 LLM에 가벼운 내성 헤드를 추가해 내부 신호(예: 정책 관련 토큰, 사용자 제공 힌트)가 활성화되었을 때 시스템이 이를 표시하도록 할 수 있다.
  • Safety & compliance: 규제 분야에서 모델이 금지된 개념을 내부적으로 고려했는지 “자체 감사”하도록 요구함으로써, 하위 결정에 대한 감사 추적을 제공할 수 있다.
  • Debugging & interpretability tools: 엔지니어는 추론 중에 진단 토큰을 주입하고, 훈련된 감지기를 사용해 모델이 실제로 그 프로브를 “감지”했는지 확인할 수 있다.
  • Modular transparency: 감지 기술이 개념 전반에 전이되므로, 하나의 파인튜닝된 모델이 편향 관련 활성화, 개인정보 민감 콘텐츠, 정책 위반 등 여러 모니터링 작업을 별도 재학습 없이 수행할 수 있다.

Limitations & Future Work

  • Scope of introspection: 연구는 단일 토큰 주입 감지만을 다루며, 보다 복잡하고 다단계인 내부 추론은 아직 검증되지 않았다.
  • Metacognitive depth: 모델이 주입된 개념을 보고할 수는 있지만, 그 개념에 대한 깊은 이해나 신념을 보여주지는 않으므로 진정한 메타인지 수준에는 미치지 못한다.
  • Scalability: 실험은 7B 모델에만 국한되었으며, 접근법이 더 큰 모델이나 멀티모달 아키텍처에 어떻게 적용되는지는 아직 불명확하다.
  • Robustness to adversarial noise: 향후 연구에서는 탐지기가 미묘한 교란에 속아 넘어가지는 않는지, 혹은 자연 생성 과정에서 발생하는 “생각”에 일반화되는지를 조사해야 한다.

Bottom line: 적당한 규모의 언어 모델을 파인튜닝함으로써 내성적 감지가 학습 가능한 능력임을 입증했으며, 이는 보다 투명하고 자기 인식이 가능한 AI 시스템을 향한 길을 열어준다.

Authors

  • Joshua Fonseca Rivera

Paper Information

  • arXiv ID: 2511.21399v1
  • Categories: cs.CL, cs.AI
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Multi-LLM 협업을 통한 약물 추천

보건 의료가 확장 가능하고 신뢰할 수 있는 clinical decision support를 위해 AI를 점점 더 활용함에 따라, 모델 추론의 신뢰성을 보장하는 것이 여전히 중요한 과제로 남아 있습니다.