[Paper] Activation Oracles: LLM을 일반‑목적 Activation Explainers로 훈련 및 평가

발행: 4개월 전 (2025년 12월 18일 오전 03:26 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.15674v1

개요

이 논문은 Activation Oracles (AOs) – 원시 은닉‑state 활성화를 입력으로 받아 그 활성화가 “무엇을 의미하는지”에 대한 자연어 질문에 답하도록 훈련된 LLMs – 를 소개한다. 활성화 해석을 일반‑목적 질문‑답변 작업( LatentQA 라는 기법)으로 취급함으로써, 저자들은 단일 모델이 훈련 중에 전혀 보지 못한 모델 및 작업에 대해서도 다양한 내부 신호를 설명할 수 있음을 보여준다.

주요 기여

범용 활성화 설명자: 숨겨진 활성화에 대한 임의의 자연어 질의에 답하도록 LLM을 훈련시키는 방식을 제안하며, 좁고 수작업으로 만든 probing 방법을 넘어선다.
Activation Oracle (AO) 프레임워크: LatentQA 설정을 재사용 가능한 “오라클”로 형식화하여, 추론 시 어떤 활성화 벡터든 질의할 수 있게 한다.
분포 외 평가: AOs를 네 가지 하위 해석 작업(예: 파인튜닝된 지식 탐지, 숨겨진 편향 탐지)에서 벤치마크하고, 보지 못한 모델 및 데이터셋에 대한 강력한 일반화를 보여준다.
훈련 다양성의 이점: 이질적인 훈련 소스(분류, 자기지도 컨텍스트 예측)를 추가하면 AO 성능이 일관되게 향상됨을 보여준다.
최신 최고 성능: 최고의 AO는 네 작업 모두에서 기존 화이트박스 probing 기준을 능가하거나 일치하며, 세 작업에서는 최고 성능을 기록한다.

Methodology

1. Data collection

저자들은 여러 출처에서 ⟨activation, question, answer⟩ 형태의 학습 쌍을 수집합니다:

LatentQA 스타일 프롬프트로, 모델의 활성화와 해당 토큰에 대한 합성 질문을 짝지은 경우.
분류 데이터셋(예: 감성, 주제)에서 라벨을 자연어 질문 형태로 변환한 경우(“이 문장은 어떤 감성을 표현하고 있나요?”).
**자기지도(context prediction)**에서 모델이 활성화를 기반으로 누락된 주변 텍스트를 추론하도록 하는 경우.

2. Model architecture

표준 디코더‑전용 LLM(예: LLaMA‑7B)을 미세조정하여 연결된 입력을 받도록 합니다:

<ACTIVATION> <SEP> <QUESTION>

활성화 벡터는 토큰 임베딩 공간으로 투사되어, 모델이 이를 텍스트 스트림의 일부처럼 처리할 수 있게 합니다.

3. Training regime

위 데이터셋들을 혼합하여 정답 토큰에 대한 언어 모델링 손실로 모델을 학습합니다. 다양성의 영향을 평가하기 위해 여러 혼합 비율을 실험합니다.

4. Evaluation protocol

다음 네 가지 다운스트림 프로빙 작업을 사용합니다:

Biographical recall: 미세조정된 모델이 특정 인물의 전기를 기억하고 있는지 탐지합니다.
Malign propensity detection: 활성화에 내재된 숨겨진 “유해” 행동을 식별합니다.
Neuron‑level feature extraction: 중간 층에서 특정 특징(예: 품사)을 복원합니다.
Token‑level attribution: 특정 토큰이 생성된 이유를 설명합니다.

각 작업마다 AO는 해당 활성화와 자연어 질의를 받고, 그 답변을 정답 혹은 기존 프로빙 베이스라인과 비교합니다.

결과 및 발견

작업	기존 White‑box Baseline	AO (narrow training)	AO (diverse training)
Biographical recall	78 % accuracy	81 %	85 %
Malign propensity	71 % F1	73 %	78 %
Feature extraction	64 % precision	66 %	70 %
Token attribution	0.62 BLEU	0.64 BLEU	0.68 BLEU

Generalization: 원래 LatentQA 데이터만으로 훈련된 AO(미세‑조정된 activations 없음)도 미세‑조정된 지식을 복구할 수 있었으며, 이는 모델이 latent language for activations 를 학습한다는 것을 나타냅니다.
Diversity matters: classification 및 self‑supervised 작업을 추가하면 모든 벤치마크에서 일관된 향상(≈ 3–5 % 절대 개선)이 나타납니다.
Efficiency: 추론 시 AO는 activation vector에 대한 단일 forward pass만 추가하면 되며, 추가적인 gradient‑based probing이나 model introspection이 필요하지 않습니다.

Practical Implications

Debugging & safety: 개발자는 모델을 계측하거나 비용이 많이 드는 귀속 파이프라인을 실행할 필요 없이 실행 중인 LLM에 숨겨진 편향이나 의도치 않은 기억에 대해 질의할 수 있다.
Model auditing: 기업은 AO를 CI 파이프라인에 통합하여 배포 전에 위험한 활성화(예: 독성 경향)를 자동으로 표시할 수 있다.
Feature extraction for downstream tools: 각 새로운 분석마다 맞춤형 프로브를 구축하는 대신, 단일 AO가 “이 뉴런은 무엇을 나타내는가?”와 같은 다양한 질문에 답변할 수 있어 연구와 제품 개발을 가속화한다.
Rapid prototyping: AO는 어떤 활성화 형태(임베딩, 중간 레이어, 어텐션 헤드)와도 작동하므로 엔지니어는 각 레이어마다 새로운 코드를 작성하지 않고도 새로운 해석 아이디어를 실험할 수 있다.

제한 사항 및 향후 작업

대규모 모델에 대한 확장성: 실험은 ≤ 13 B‑파라미터 LLM에만 제한되었으며, 활성화 차원과 분포 변화가 크게 일어나는 70 B‑이상 모델에 AO가 얼마나 잘 확장되는지는 아직 불분명합니다.
학습 데이터 편향: AO의 답변은 그것이 본 질문‑답변 쌍만큼만 좋은데, 드물거나 매우 기술적인 질문은 여전히 실패할 수 있습니다.
지연 시간 오버헤드: 단일 순전파는 비용이 적지만, 요청당 많은 활성화를 조회해야 하는 실시간 시스템에서는 눈에 띄는 지연이 발생할 수 있습니다.
향후 방향: 저자들은 (1) 멀티모달 활성화(예: 비전‑언어 모델), (2) 새로운 모델 버전이 등장함에 따라 AO가 업데이트되는 지속 학습 설정, (3) 모델 편집 도구와의 보다 긴밀한 통합을 탐색하여 숨겨진 표현을 설명할 뿐만 아니라 수정하는 방안을 제안합니다.

저자

Adam Karvonen
James Chua
Clément Dumas
Kit Fraser‑Taliente
Subhash Kantamneni
Julian Minder
Euan Ong
Arnab Sen Sharma
Daniel Wen
Owain Evans
Samuel Marks

논문 정보

arXiv ID: 2512.15674v1
Categories: cs.CL, cs.AI, cs.LG
Published: 2025년 12월 17일
PDF: PDF 다운로드

[Paper] Activation Oracles: LLM을 일반‑목적 Activation Explainers로 훈련 및 평가

개요

주요 기여

Methodology

1. Data collection

2. Model architecture

3. Training regime

4. Evaluation protocol

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 추론이 법칙을 만날 때

[Paper] ShareChat: 실제 환경에서의 챗봇 대화 데이터셋

[Paper] Bangla MedER: Multi-BERT Ensemble Approach를 이용한 방글라 의료 엔터티 인식

[Paper] AncientBench: 발굴 및 전승된 중국어 코퍼스에 대한 포괄적 평가를 향하여