[논문] 잊어야 할 것을 학습하기: 토큰 수준 중요도 학습을 통한 LLM 언러닝 개선

발행: (2026년 6월 5일 AM 12:56 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.06320v1

개요

머신 언러닝은 훈련된 모델에서 특정 지식을 제거하면서도 모델의 일반적인 능력은 유지하는 것을 목표로 합니다. 자동회귀 언어 모델의 경우, 포기 샘플에 포함된 모든 토큰이 잊기에 동일하게 중요한 것은 아닙니다. 기존 접근법은 이 이질성을 무시하거나 보조 모델, 휴리스틱, 외부 주석 등에 의존해 각 토큰의 잊기 관련성을 추정합니다. 우리는 대신 보존 목표와의 상호작용을 통해 이를 규정합니다: 어떤 토큰은 해당 토큰에 대한 포기 손실을 최소화하는 것이 보존 최적성과 충돌하지 않을 때, 그만큼 포기‑특이적이라고 할 수 있습니다. 우리는 이 관점을 모델 파라미터와 토큰 가중치에 대한 공동 최적화 문제로 형식화하고, 자연스러운 분리 조건 하에서 도출된 목적함수가 오라클 포기‑특이 토큰 지원을 복원함을 보입니다. 이 형식화에 영감을 받아, 우리는 Alternating Token-Weighted Unlearning (ATWU) 라는 경량 프레임워크를 제안합니다. ATWU는 숨겨진 상태에 대한 단순 선형 스코어러를 사용해 외부 토큰 수준 감독 없이 포기‑특이성을 토큰별로 학습하고, 동시에 모델 파라미터를 업데이트합니다. TOFU와 RWKU 전반에 걸쳐, ATWU는 샘플 수준 방법, 확률 기반 토큰 가중치 휴리스틱, 보조 모델 기반 접근법을 능가하는 최첨단 포기‑보존 트레이드오프를 달성합니다. 또한 학습된 스코어는 실제 포기‑특이 구간과 훨씬 더 높은 일치를 보이며, ATWU가 의미론적으로 의미 있는 토큰 수준 잊기 신호를 식별함을 시사합니다. 전반적으로 우리의 결과는 보존 충돌이 언어 모델이 무엇을 잊어야 하는지를 식별하는 효과적인 기준이 될 수 있음을 보여주며, 최소한의 계산 오버헤드로 모델 표현으로부터 직접 토큰 수준 포기‑특이성을 비지도 학습할 수 있음을 입증합니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다:

  • cs.LG
  • cs.AI
  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.LG 분야의 발전에 기여합니다.

저자

  • Gizem Yüce
  • Giorgos Nikolaou
  • Nicolas Flammarion

논문 정보

  • arXiv ID: 2606.06320v1
  • 분류: cs.LG, cs.AI, cs.CL
  • 발표일: 2026년 6월 4일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »