[Paper] MPU: 대형 언어 모델을 위한 보안 및 프라이버시 보호 지식 언러닝을 향하여

발행: (2026년 2월 27일 오후 05:39 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.23798v1

Overview

이 논문은 MPU (Multiple Perturbed Copies Unlearning) 라는 프레임워크를 소개합니다. MPU는 대형 언어 모델(LLM)이 특정 데이터를 “잊게” 하면서도 모델의 내부 가중치나 클라이언트의 비공개 삭제 목록을 노출하지 않도록 합니다. 서버 측에서 모델의 복제본을 교묘히 섞고 재파라미터화함으로써, MPU는 기존의 어떤 언어 모델 삭제 알고리즘과도 호환되는 프라이버시 보호 삭제를 가능하게 합니다.

핵심 기여

  • 이중 비공개 솔루션: 서버의 정확한 매개변수와 클라이언트의 포겟 세트가 절대 공유되지 않음을 보장합니다.
  • 알고리즘에 구애받지 않는 설계: 논문에서 평가된 일곱 가지 학습 제거 방법을 포함한 다양한 방법과 호환됩니다.
  • 다중 교란 복제본: 원본 가중치를 가리기 위해 여러 무작위 모델 인스턴스를 생성하면서도 효과적인 로컬 학습 제거를 지원합니다.
  • 조화 잡음 제거 집계: 교란을 역전시키고 업데이트를 결합하여 잡음이 없는 기준선에 근접한 성능을 회복하는 새로운 후처리 단계입니다.
  • 실증 검증: 10 % 잡음 하에서 평균 1 % 미만의 성능 저하를 보여주며, 잡음이 1 %에 불과할 때는 기준선보다 가끔 개선되는 경우도 입증했습니다.

방법론

  1. Pre‑Process (Server side)

    • 서버는 대상 LLM의 k 개 복사본을 생성합니다.
    • 각 복사본은 perturbed(가중치에 무작위 노이즈 추가)되고 re‑parameterized(예: 무작위 선형 변환 적용)됩니다.
    • perturbed된 복사본은 클라이언트에 전송되며, 원본 모델은 절대로 서버를 떠나지 않습니다.
  2. Local Unlearning (Client side)

    • 클라이언트는 자신의 개인적인 forget set만을 사용해 각 복사본에 선택한 unlearning 알고리즘을 실행합니다.
    • 각 복사본이 약간씩 다르기 때문에, 클라이언트는 실제 기본 파라미터를 볼 수 없습니다.
  3. Post‑Process (Server side)

    • 서버는 업데이트된 복사본을 받아 inverts the re‑parameterization을 수행해 원래 가중치 공간으로 되돌립니다.
    • harmonic denoising 단계가 여러 업데이트를 집계하여, 앞서 도입된 무작위 노이즈를 효과적으로 상쇄합니다.

전체 파이프라인은 “plug‑and‑play” 방식이며, MPU의 핵심 구성 요소를 변경하지 않고도 어떤 unlearning 알고리즘이든 교체하여 사용할 수 있습니다.

결과 및 발견

  • 성능 동등성: 7개의 언러닝 알고리즘 전반에 걸쳐, MPU의 언러닝 품질은 대부분의 경우 노이즈가 없는 기준선과 일치합니다.
  • 노이즈에 대한 견고성: 10 %의 주입된 노이즈가 있을 때 평균 성능 손실은 1 % 이하이며, 1 %의 노이즈만 있을 경우 일부 알고리즘은 기준선을 능가하기도 합니다.
  • 확장성: GPT‑2‑medium 크기까지의 모델에 대한 실험 결과, 다수의 복사본을 생성하고 집계하는 오버헤드가 적당함이 확인되었습니다 (≈2–3× 학습 시간, 여전히 프로덕션 파이프라인에 실용적).
  • 프라이버시 보장: 형식적인 분석을 통해 서버가 클라이언트의 삭제 집합을 재구성할 수 없으며, 클라이언트도 무시할 수 있을 정도의 통계적 한계 이상으로 정확한 원래 가중치를 추론할 수 없다는 것이 확인되었습니다.

실용적 시사점

  • 규제 준수: 기업은 독점 모델 가중치나 사용자 데이터를 노출하지 않고 LLM 기반 서비스에 대한 “잊혀질 권리” 요청을 이행할 수 있습니다.
  • 멀티테넌트 SaaS: 클라우드 제공업체는 언러닝을 서비스 형태로 제공할 수 있으며, 각 테넌트가 핵심 모델을 비밀로 유지하면서 변형된 복사본에 대해 로컬 삭제 작업을 수행하도록 할 수 있습니다.
  • 보안 모델 업데이트: MPU의 변형‑집계 패턴은 참가자들이 데이터와 기본 모델을 모두 숨겨야 하는 보안 연합 미세조정에 재활용될 수 있습니다.
  • 툴링 통합: MPU가 알고리즘에 구애받지 않기 때문에 기존 언러닝 라이브러리(예: Forget‑BERT, SISA)를 최소한의 코드 변경으로 래핑할 수 있어 채택이 가속화됩니다.

제한 사항 및 향후 연구

  • 계산 오버헤드: 여러 개의 변형된 복사본을 유지하면 메모리와 계산 요구량이 증가합니다; 복사본 수와 프라이버시/유용성 간의 trade‑off를 최적화하는 문제는 아직 해결되지 않았습니다.
  • 노이즈 보정: 현재 연구에서는 고정된 노이즈 수준을 사용했으며, 적응형 노이즈 방식을 도입하면 성능을 유지하면서 프라이버시 보장을 더욱 강화할 수 있습니다.
  • 다양한 모델군: 실험은 디코더 전용 및 인코더‑디코더 트랜스포머에 초점을 맞췄으며, MPU를 검색 기반 강화 모델이나 멀티모달 LLM에 적용하는 연구가 필요합니다.
  • 형식적인 프라이버시 증명: 경험적 공격은 완화되었지만, 변형‑집계 파이프라인에 대한 엄밀한 차등 프라이버시 분석은 향후 연구 과제로 남아 있습니다.

MPU는 프라이버시 법과 실용적인 AI 배포 사이의 격차를 메우며, 개발자들이 LLM을 책임감 있게 잊게 만들 수 있는 실용적인 경로를 제공합니다.

저자

  • Tiantong Wang
  • Xinyu Yan
  • Tiantong Wu
  • Yurong Hao
  • Yong Jiang
  • Fei Huang
  • Wei Yang Bryan Lim

논문 정보

  • arXiv ID: 2602.23798v1
  • 분류: cs.LG, cs.AI, cs.CR, cs.DC
  • 출판일: 2026년 2월 27일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »