[Paper] Activation Oracles: LLM을 일반‑목적 Activation Explainers로 훈련 및 평가
Source: arXiv - 2512.15674v1
개요
이 논문은 Activation Oracles (AOs) – 원시 은닉‑state 활성화를 입력으로 받아 그 활성화가 “무엇을 의미하는지”에 대한 자연어 질문에 답하도록 훈련된 LLMs – 를 소개한다. 활성화 해석을 일반‑목적 질문‑답변 작업( LatentQA 라는 기법)으로 취급함으로써, 저자들은 단일 모델이 훈련 중에 전혀 보지 못한 모델 및 작업에 대해서도 다양한 내부 신호를 설명할 수 있음을 보여준다.
주요 기여
- 범용 활성화 설명자: 숨겨진 활성화에 대한 임의의 자연어 질의에 답하도록 LLM을 훈련시키는 방식을 제안하며, 좁고 수작업으로 만든 probing 방법을 넘어선다.
- Activation Oracle (AO) 프레임워크: LatentQA 설정을 재사용 가능한 “오라클”로 형식화하여, 추론 시 어떤 활성화 벡터든 질의할 수 있게 한다.
- 분포 외 평가: AOs를 네 가지 하위 해석 작업(예: 파인튜닝된 지식 탐지, 숨겨진 편향 탐지)에서 벤치마크하고, 보지 못한 모델 및 데이터셋에 대한 강력한 일반화를 보여준다.
- 훈련 다양성의 이점: 이질적인 훈련 소스(분류, 자기지도 컨텍스트 예측)를 추가하면 AO 성능이 일관되게 향상됨을 보여준다.
- 최신 최고 성능: 최고의 AO는 네 작업 모두에서 기존 화이트박스 probing 기준을 능가하거나 일치하며, 세 작업에서는 최고 성능을 기록한다.
Methodology
1. Data collection
저자들은 여러 출처에서 ⟨activation, question, answer⟩ 형태의 학습 쌍을 수집합니다:
- LatentQA 스타일 프롬프트로, 모델의 활성화와 해당 토큰에 대한 합성 질문을 짝지은 경우.
- 분류 데이터셋(예: 감성, 주제)에서 라벨을 자연어 질문 형태로 변환한 경우(“이 문장은 어떤 감성을 표현하고 있나요?”).
- **자기지도(context prediction)**에서 모델이 활성화를 기반으로 누락된 주변 텍스트를 추론하도록 하는 경우.
2. Model architecture
표준 디코더‑전용 LLM(예: LLaMA‑7B)을 미세조정하여 연결된 입력을 받도록 합니다:
<ACTIVATION> <SEP> <QUESTION>
활성화 벡터는 토큰 임베딩 공간으로 투사되어, 모델이 이를 텍스트 스트림의 일부처럼 처리할 수 있게 합니다.
3. Training regime
위 데이터셋들을 혼합하여 정답 토큰에 대한 언어 모델링 손실로 모델을 학습합니다. 다양성의 영향을 평가하기 위해 여러 혼합 비율을 실험합니다.
4. Evaluation protocol
다음 네 가지 다운스트림 프로빙 작업을 사용합니다:
- Biographical recall: 미세조정된 모델이 특정 인물의 전기를 기억하고 있는지 탐지합니다.
- Malign propensity detection: 활성화에 내재된 숨겨진 “유해” 행동을 식별합니다.
- Neuron‑level feature extraction: 중간 층에서 특정 특징(예: 품사)을 복원합니다.
- Token‑level attribution: 특정 토큰이 생성된 이유를 설명합니다.
각 작업마다 AO는 해당 활성화와 자연어 질의를 받고, 그 답변을 정답 혹은 기존 프로빙 베이스라인과 비교합니다.
결과 및 발견
| 작업 | 기존 White‑box Baseline | AO (narrow training) | AO (diverse training) |
|---|---|---|---|
| Biographical recall | 78 % accuracy | 81 % | 85 % |
| Malign propensity | 71 % F1 | 73 % | 78 % |
| Feature extraction | 64 % precision | 66 % | 70 % |
| Token attribution | 0.62 BLEU | 0.64 BLEU | 0.68 BLEU |
- Generalization: 원래 LatentQA 데이터만으로 훈련된 AO(미세‑조정된 activations 없음)도 미세‑조정된 지식을 복구할 수 있었으며, 이는 모델이 latent language for activations 를 학습한다는 것을 나타냅니다.
- Diversity matters: classification 및 self‑supervised 작업을 추가하면 모든 벤치마크에서 일관된 향상(≈ 3–5 % 절대 개선)이 나타납니다.
- Efficiency: 추론 시 AO는 activation vector에 대한 단일 forward pass만 추가하면 되며, 추가적인 gradient‑based probing이나 model introspection이 필요하지 않습니다.
Practical Implications
- Debugging & safety: 개발자는 모델을 계측하거나 비용이 많이 드는 귀속 파이프라인을 실행할 필요 없이 실행 중인 LLM에 숨겨진 편향이나 의도치 않은 기억에 대해 질의할 수 있다.
- Model auditing: 기업은 AO를 CI 파이프라인에 통합하여 배포 전에 위험한 활성화(예: 독성 경향)를 자동으로 표시할 수 있다.
- Feature extraction for downstream tools: 각 새로운 분석마다 맞춤형 프로브를 구축하는 대신, 단일 AO가 “이 뉴런은 무엇을 나타내는가?”와 같은 다양한 질문에 답변할 수 있어 연구와 제품 개발을 가속화한다.
- Rapid prototyping: AO는 어떤 활성화 형태(임베딩, 중간 레이어, 어텐션 헤드)와도 작동하므로 엔지니어는 각 레이어마다 새로운 코드를 작성하지 않고도 새로운 해석 아이디어를 실험할 수 있다.
제한 사항 및 향후 작업
- 대규모 모델에 대한 확장성: 실험은 ≤ 13 B‑파라미터 LLM에만 제한되었으며, 활성화 차원과 분포 변화가 크게 일어나는 70 B‑이상 모델에 AO가 얼마나 잘 확장되는지는 아직 불분명합니다.
- 학습 데이터 편향: AO의 답변은 그것이 본 질문‑답변 쌍만큼만 좋은데, 드물거나 매우 기술적인 질문은 여전히 실패할 수 있습니다.
- 지연 시간 오버헤드: 단일 순전파는 비용이 적지만, 요청당 많은 활성화를 조회해야 하는 실시간 시스템에서는 눈에 띄는 지연이 발생할 수 있습니다.
- 향후 방향: 저자들은 (1) 멀티모달 활성화(예: 비전‑언어 모델), (2) 새로운 모델 버전이 등장함에 따라 AO가 업데이트되는 지속 학습 설정, (3) 모델 편집 도구와의 보다 긴밀한 통합을 탐색하여 숨겨진 표현을 설명할 뿐만 아니라 수정하는 방안을 제안합니다.
저자
- Adam Karvonen
- James Chua
- Clément Dumas
- Kit Fraser‑Taliente
- Subhash Kantamneni
- Julian Minder
- Euan Ong
- Arnab Sen Sharma
- Daniel Wen
- Owain Evans
- Samuel Marks
논문 정보
- arXiv ID: 2512.15674v1
- Categories: cs.CL, cs.AI, cs.LG
- Published: 2025년 12월 17일
- PDF: PDF 다운로드