[Paper] 활성화 시그니처를 통한 Representation-Aware Unlearning: 억제에서 Knowledge-Signature Erasure까지
Source: arXiv - 2601.10566v1
개요
이 논문은 대형 언어 모델(LLM)을 배포하는 모든 사람에게 시급한 문제를 다룬다: 모델을 처음부터 재학습하지 않고 특정 지식 제거를 어떻게 할 것인가. 기존의 “언러닝” 기법은 종종 출력 층에서 원치 않는 행동만 가리고, 근본적인 표현은 그대로 남겨둔다. 저자들은 Knowledge Immunization Framework (KIF) 를 소개한다. 이는 표현을 인식하는 방법으로, 삭제하려는 지식의 내부 활성화 패턴(“시그니처”)을 목표로 하여, 모델의 전체 성능을 유지하면서 진정한 망각을 달성한다.
주요 기여
- Activation‑Signature‑Based Unlearning – 특정 사실이나 개념을 인코딩하는 내부 뉴런 활성화를 찾아 억제하는 새로운 방법을 제안, 표면 수준의 출력 억제만을 넘어선다.
- Knowledge Immunization Framework (KIF) – 추론 중에 주제별 표현을 동적으로 억제하는 가볍고 파라미터 효율적인 적응 레이어.
- Dual‑Metric Evaluation Protocol – 표면 누출 + 잠재 흔적 지속성이라는 두 축의 벤치마크를 도입해 진정한 삭제와 단순 은폐를 명확히 구분한다.
- Empirical Validation Across Model Families – Llama, Mistral, Qwen, DeepSeek 모델(3 B ~ 14 B 파라미터)에서 거의 완벽한 삭제(FQ ≈ 0.99)와 최소한의 유용성 손실(MU ≈ 0.62)을 입증.
- Insights on Architectural Differences – 표준 디코더‑전용 모델은 규모와 무관하게 삭제가 가능하지만, 추론‑우선 모델은 체계적인 저항성을 보여 아키텍처적 트레이드‑오프가 존재함을 시사.
방법론
-
Identify Activation Signatures
- 목표 사실(예: “파리는 프랑스의 수도이다”)에 대해, 저자들은 모델의 레이어별 은닉 상태를 조사하여 해당 사실과 일관되게 상관관계를 보이는 소수의 뉴런 집합을 찾습니다.
- 이는 토큰 임베딩을 이진 “지식 존재” 신호로 매핑하는 경량 프로빙 네트워크를 사용해 수행됩니다.
-
Dynamic Suppression Layer
- 각 트랜스포머 블록 뒤에 작은 어댑터(전체 파라미터의 ≈0.5 %)를 삽입합니다.
- 추론 시, 어댑터는 활성화 시그니처를 받아 목표 사실이 처리될 때만 식별된 뉴런을 약화시키는 학습된 게이팅 함수를 적용합니다.
-
Parameter‑Efficient Fine‑Tuning
- 어댑터는 negative dataset(해당 사실에 대한 질의와 “모르겠다” 라는 응답이 짝지어진 데이터)으로 훈련하고, 원본 모델 가중치는 고정합니다.
- 이를 통해 전체 모델을 재학습하는 것을 피하고, 몇 백 번의 그래디언트 스텝에 해당하는 비용만 소요됩니다.
-
Dual‑Metric Evaluation
- Surface Leakage (SL): 프롬프트 시 모델이 아직도 삭제된 사실을 출력하는 빈도를 측정합니다.
- Latent Trace Persistence (LTP): 언러닝 후 은닉 상태를 프로빙하여 활성화 시그니처가 여전히 감지되는지 확인합니다.
- SL과 LTP가 모두 거의 0에 가까워질 때만 진정한 삭제가 이루어진 것으로 선언합니다.
결과 및 발견
| 모델 (파라미터) | FQ (사실‑질문 정확도) | MU (유틸리티 유지) | SL ↓ | LTP ↓ |
|---|---|---|---|---|
| Llama‑7B | 0.99 | 0.62 | 0.01 | 0.02 |
| Mistral‑7B | 0.98 | 0.60 | 0.02 | 0.03 |
| Qwen‑14B | 0.93 | 0.55 | 0.07 | 0.09 |
| DeepSeek‑13B | 0.91 | 0.53 | 0.09 | 0.11 |
- 거의 오라클 수준 삭제: KIF 후 사실‑질문 정확도가 해당 사실을 전혀 학습하지 않은 모델과 구분되지 않는다.
- 유틸리티 드리프트 < 3 %: 일반 언어 이해 및 하위 작업 성능이 사실상 변하지 않는다.
- 규모 독립성: 표준 모델에서는 모델 크기가 커져도 삭제 품질이 저하되지 않는다.
- 아키텍처 차이: 추론 중심 모델은 더 강한 잠재 흔적을 유지하며, 이는 내부 추론 경로가 지식을 보다 확산시켜 임베드한다는 것을 시사한다.
실용적 함의
- GDPR 및 Data‑Deletion Requests – 기업은 전체 모델 재학습에 드는 비용 없이 KIF를 특정 사용자 제공 데이터에 적용함으로써 “잊혀질 권리” 규정을 준수할 수 있습니다.
- Safety & Toxicity Mitigation – 문제적이거나 편향된 지식을 정밀하게 제거함으로써 우발적인 생성 위험을 줄이면서 모델의 전반적인 능력을 유지할 수 있습니다.
- Continuous Model Maintenance – 새로운 규제나 기업 정책이 등장함에 따라 KIF는 배포된 LLM 서비스에 대한 신속하고 실시간 업데이트를 가능하게 합니다.
- Tooling Integration – 어댑터 기반 접근 방식은 기존 추론 파이프라인(예: Hugging Face Transformers)에 자연스럽게 맞으며 요청별로 토글할 수 있어 사용자별 또는 세션별 지식 제어가 가능합니다.
- Cost Efficiency – 단일 사실을 언러닝하는 비용은 수백 번의 파인‑튜닝 단계(단일 GPU에서 몇 분)와 대략 동일하며, 10 B‑parameter 모델을 재학습하는 것보다 훨씬 저렴합니다.
제한 사항 및 향후 작업
- Partial Coverage of Knowledge Types – 현재 서명 추출은 사실적이고 엔터티 수준의 지식에 가장 적합하며, 보다 추상적이거나 절차적인 지식은 더 풍부한 탐색 기법이 필요할 수 있습니다.
- Reasoning‑Prior Model Resistance – Qwen/DeepSeek에서 더 높은 LTP 점수가 나타난 것은 완전한 삭제를 위해서는 더 깊은 구조적 변화(예: 전용 추론 모듈)가 필요할 수 있음을 시사합니다.
- Scalability of Signature Mining – 몇십 개의 사실에 대해서는 가능하지만, 수천 개 항목에 대한 서명 채굴은 병목 현상이 될 수 있습니다. 향후 작업에서는 자동화된 배치 방식 서명 발견을 탐구할 수 있습니다.
- Robustness to Adversarial Prompting – 논문에서는 표준 프롬프트만 평가했으며, 교묘한 프롬프트 엔지니어링이 삭제된 지식을 복원할 수 있는지 여부는 아직 미해결 질문으로 남아 있습니다.
저자
- Syed Naveed Mahmood
- Md. Rezaur Rahman Bhuiyan
- Tasfia Zaman
- Jareen Tasneem Khondaker
- Md. Sameer Sakib
- Nazia Tasnim
- Farig Sadeque
논문 정보
- arXiv ID: 2601.10566v1
- 분류: cs.CL, cs.LG
- 출판일: 2026년 1월 15일
- PDF: PDF 다운로드