[Paper] 머신 언러닝에서 삭제되지 않은 데이터 보호

발행: 3일 전 (2026년 2월 19일 오전 03:44 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.16697v1

개요

머신 언러닝은 훈련된 모델에서 사용자의 데이터를 마치 해당 데이터가 전혀 사용되지 않은 것처럼 삭제할 수 있게 해준다고 약속합니다. Cohen et al.은 가장 일반적인 “perfect‑retraining” 개념의 언러닝이 remaining (삭제되지 않은) 데이터에 대한 정보를 의도치 않게 누출할 수 있음을 보여줍니다. 그들의 연구는 새로운 종류의 재구성 공격을 밝혀내고, 합계 연산 및 통계 학습과 같은 실용적인 작업을 여전히 지원하는 보다 안전한 보안 정의를 제안합니다.

주요 기여

Reconstruction attack: 적은 수의 데이터 포인트만을 제어하는 공격자가 완벽한 재학습 보장을 만족하는 모델에 반복적으로 삭제 요청을 보내면, 원본 데이터셋의 거의 전체를 복구할 수 있음을 보여줍니다.
Critical survey of existing definitions: 현재 머신 언러닝에 대한 형식화가 공격에 취약하거나(예: 정확한 합계 집계와 같은 기본 기능을 구현할 수 없을 정도로 제한적) 함을 밝혀냅니다.
New security definition: 다른 포인트가 삭제될 때 시스템에 남아 있는 데이터에 대한 누출을 명시적으로 방지하는 “삭제되지 않은 데이터 보호” 개념을 도입합니다.
Positive feasibility results: 새로운 정의 하에서도 게시판 형태의 데이터 저장소, 안전한 합산 서비스, 표준 통계 학습 파이프라인 등 유용한 프리미티브를 여전히 구축할 수 있음을 증명합니다.

방법론

Threat model – 공격자는 훈련 세트에 소량의 악성 레코드를 삽입한 뒤 임의의 레코드에 대해 일련의 삭제 요청을 할 수 있다.
Attack construction – 각 삭제 후 모델의 출력(또는 공개 요약)을 관찰함으로써, 공격자는 방정식 시스템을 풀어 점차 손대지 않은 레코드들의 기여도를 밝혀내고 최종적으로 전체 데이터셋을 재구성한다.
Formal analysis of definitions – 저자들은 기존의 여러 언러닝 정의(예: “perfect retraining”, 차등‑프라이버시‑기반 언러닝)를 형식화하고, 각각이 공격을 허용하거나 필수 연산을 금지함을 증명한다.
Design of a new definition – 그들은 삭제 후 적의 시야가 삭제된 포인트가 전혀 포함되지 않은 데이터셋에서 생성된 시야와 구별할 수 없어야 하며, 삭제되지 않은 포인트는 완전히 숨겨져 있어야 하는 보안 게임을 정의한다.
Constructive proofs – 표준 암호학 도구(비밀 분할, 동형 암호)와 알고리즘 트릭(증분 업데이트)을 활용하여, 일반 작업에 대해 새 정의를 만족하는 구체적인 메커니즘을 구축한다.

Results & Findings

Attack effectiveness: 선형 회귀, 로지스틱 회귀, 간단한 카운팅 쿼리와 같은 작업에 대해, 재구성 공격은 데이터셋 크기 (n)에 대해 (O(\log n))개의 삭제만으로도 높은 확률로 성공합니다.
Vulnerability of perfect retraining: 삭제 후 “스크래치부터 재학습”과 정확히 동일한 모델을 보장하는 모든 알고리즘은 남은 데이터에 대한 선형 제약을 누출하며, 이는 공격자가 해결할 수 있습니다.
Impossibility under existing definitions: 이 논문은 완벽한 재학습, 정확한 합산 지원, 그리고 삭제되지 않은 데이터 보호를 동시에 달성할 수 있는 메커니즘은 존재하지 않음을 증명합니다.
Feasibility of the new definition: 저자들은 새로운 보안 보장을 제공하면서도 계산 및 저장 비용이 상수 배만큼 증가하는 (예: 가법 비밀 공유를 이용한 보안 게시판) 프로토타입 구성을 제시합니다.

실용적 함의

Regulatory compliance: “right‑to‑be‑forgotten” API를 구축하는 기업은 단순히 재학습하거나 기존 언러닝 라이브러리를 적용하는 것만으로도 다른 사용자의 데이터가 노출될 수 있음을 인지해야 합니다.
Design of ML‑as‑a‑service platforms: 서비스 제공자는 특히 모델이 공개 엔드포인트를 통해 노출될 때, 삭제되지 않은 데이터 보호 정의를 만족하는 언러닝 기본 요소를 채택해야 합니다.
Secure data pipelines: 논문의 구성은 안전한 집계(예: 텔레메트리 합산)와 교차 사용자 누출 위험 없이 점진적 학습을 가능하게 하며, 이는 분석 대시보드 및 연합 학습 환경에 유용합니다.
Tooling impact: 오픈소스 언러닝 프레임워크는 더 강력한 보장을 충족하기 위해 암호화 백엔드(비밀 분할, 동형 암호화)를 통합해야 할 수 있으며, 이는 성능 트레이드오프에 영향을 미칩니다.

제한 사항 및 향후 연구

공격 범위: 재구성 공격은 선형‑형 모델과 카운팅 쿼리에 대해 입증되었으며, 딥 뉴럴 네트워크로 확장하는 것은 아직 미해결 질문이다.
성능 오버헤드: 제안된 구성은 이론적으로 효율적이지만, 대규모 모델에 대한 실제 지연 시간 및 메모리 비용은 경험적으로 평가되지 않았다.
보다 넓은 위협 모델: 논문은 공격자가 각 삭제 후 모델을 관찰할 수 있다고 가정한다; 향후 연구에서는 더 약한 관찰 모델(예: 최종 모델 접근만 가능) 을 탐색할 수 있다.
차등 프라이버시와의 통합: 새로운 비삭제‑데이터 보호 정의를 DP‑기반 학습과 결합하여 프라이버시와 언러닝 보장을 모두 얻는 것이 유망한 방향이다.

저자

Aloni Cohen
Refael Kohen
Kobbi Nissim
Uri Stemmer

논문 정보

arXiv ID: 2602.16697v1
분류: cs.LG, cs.DS
출판일: 2026년 2월 18일
PDF: PDF 다운로드

[Paper] 머신 언러닝에서 삭제되지 않은 데이터 보호

개요

주요 기여

방법론

Results & Findings

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] Sink-Aware Pruning for Diffusion Language Models

[논문] MARS: Margin-Aware Reward-Modeling with Self-Refinement

[Paper] 다중 라운드 인간‑AI 협업 및 사용자 지정 요구사항

[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장