[Paper] 테이블이 유출될 때: LLM 기반 Tabular Data Generation에서 문자열 기억 공격

발행: (2025년 12월 10일 오전 03:06 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.08875v1

Overview

대형 언어 모델(LLM)은 이제 현실적인 표 형식 데이터셋을 합성하는 데 사용되고 있습니다—예를 들어 분석 파이프라인을 훈련시키기 위한 CSV 파일이나 프라이버시를 보호하면서 데이터를 공유하는 경우 등입니다. 이 논문은 미묘하지만 심각한 프라이버시 결함을 밝혀냅니다: LLM이 숫자 문자열(예: 신용카드 번호, ID, 타임스탬프)을 포함하는 행을 생성할 때, 훈련 중에 본 정확한 숫자 시퀀스를 무의식적으로 재현할 수 있습니다. 저자들은 합성 출력만을 이용해 이 누수를 탐지하는 “no‑box” 멤버십 추론 공격을 제시하고, 데이터를 유용하게 유지하면서 공격을 차단하는 경량 방어책을 제안합니다.

Key Contributions

  • 새로운 프라이버시 위험 식별: LLM 기반 표 생성기가 훈련 코퍼스에 있던 숫자 문자열을 기억하고 재생산할 수 있음을 보여줍니다.
  • LevAtt 공격: 생성된 숫자 문자열을 검사해 특정 훈련 레코드가 기억되었는지 판단하는 간단한 블랙‑박스 멤버십 추론 방법.
  • 포괄적인 실증 연구: 소규모 파인‑튜닝 모델(GPT‑Neo, LLaMA‑7B)과 프롬프트 기반 대형 모델(GPT‑4, Claude)에서 다양한 공개 표 형식 벤치마크에 대해 LevAtt를 평가합니다.
  • 방어 전략: 두 가지 완화 기법을 제안하는데, 그 중 하나는 digit‑perturbation sampling이라는 새로운 방법으로, 통계적 특성을 해치지 않으면서 생성 과정에서 숫자를 무작위로 약간 변형합니다.
  • 유틸리티‑프라이버시 트레이드‑오프 분석: 제안된 방어책이 공격 성공률을 크게 낮추는 동시에(대부분 무작위 추측 수준) 하위 작업 성능(예: 분류 정확도, 회귀 R²)을 몇 퍼센트 포인트 이내로 유지함을 보여줍니다.

Methodology

  1. 위협 모델 – 공격자는 LLM이 만든 합성 표만을 볼 수 있습니다. 모델 가중치, 프롬프트, 원본 훈련 데이터에 대한 접근은 가정하지 않습니다.
  2. 공격 파이프라인 (LevAtt)
    • 추출: 생성된 각 행에서 연속된 숫자 부분 문자열(예: “12345678”)을 스캔합니다.
    • 해시‑조회: 각 부분 문자열을 훈련 데이터셋의 숫자 필드에 대한 공개 해시와 비교합니다(해시는 유출된 조각이나 알려진 공개 부분집합으로부터 구성될 수 있습니다).
    • 결정 규칙: 해시 항목과 일치하면 해당 원본 레코드를 멤버(즉, 모델이 기억함)로 표시합니다.
  3. 데이터셋 및 모델 – 저자들은 금융, 의료, IoT 분야를 포괄하는 12개의 공개 표 형식 코퍼스(UCI, OpenML, Kaggle)를 사용합니다. 모델은 다음과 같습니다:
    • 원시 CSV에 대해 파인‑튜닝된 LLaMA‑7B, GPT‑Neo‑2.7B, T5‑base.
    • 몇 개의 샷 예시를 이용한 프롬프트 기반 생성: GPT‑3.5‑Turbo, GPT‑4, Claude‑2, Gemini‑Pro.
  4. 방어책
    • 차등 프라이버시 파인‑튜닝(DP‑SGD)을 베이스라인으로 사용.
    • Digit‑perturbation sampling: 토큰 샘플링 중에 숫자 토큰을 인접한 숫자(±1)로 교체할 확률 ε을 부여해, 전체 숫자 필드 분포가 유지되도록 합니다.

Results & Findings

Model / SettingAttack Success (Precision)Utility Drop (ΔAccuracy)
Fine‑tuned LLaMA‑7B0.93 (near‑perfect)–0.4 %
GPT‑4 (prompt)0.78–0.2 %
Claude‑2 (prompt)0.71–0.3 %
DP‑SGD (ε=1.0)0.45–5.1 %
Digit‑perturbation (ε=0.05)0.12–0.6 %
  • 누수는 광범위함: 최신 LLM조차도 고엔트로피 식별자를 포함한 행의 최대 90 %에서 정확한 숫자 문자열을 유출합니다.
  • No‑box 공격이 작동함: LevAtt는 모델에 대한 어떠한 질의도 하지 않고, 단순히 합성 CSV를 파싱함으로써 거의 완벽한 멤버십 분류를 달성합니다.
  • 방어책이 효과적: 제안된 digit‑perturbation은 공격 성공률을 무작위 추측 수준으로 낮추면서 하위 작업 성능 손실을 거의 무시할 수준(<1 %)으로 유지합니다.
  • 차등 프라이버시는 과도함: 기존 DP‑SGD는 누수를 제거하지만 정확도 손실이 5 % 이상으로 커, 경량 변형이 많은 파이프라인에 더 실용적입니다.

Practical Implications

  • 데이터 공유 플랫폼(예: OpenAI 파인‑튜닝 데이터 마켓플레이스, 합성 데이터 공급업체)은 고객에게 제공하기 전에 생성된 표에서 숫자 기억 현상을 감사해야 합니다.
  • 컴플라이언스 팀은 규제 식별자(PCI‑DSS, HIPAA)를 다룰 때 합성 CSV를 원시 데이터와 동일한 주의 수준으로 취급해야 합니다. 긴 숫자 문자열에 대한 간단한 정규식 스캔으로 위험한 출력을 표시할 수 있습니다.
  • 합성 데이터 파이프라인 개발자는 HuggingFace transformers와 같은 라이브러리의 기본 토큰‑샘플링 단계를 대체하는 형태로 digit‑perturbation 샘플러를 쉽게 통합할 수 있습니다.
  • Model‑as‑a‑service 제공자는 “프라이버시 모드” 플래그를 제공해 자동으로 변형 전략을 활성화함으로써 충실도와 규제 안전성 사이의 트레이드‑오프를 조정할 수 있습니다.
  • 보안 감사자는 이제 LevAtt라는 구체적이고 재현 가능한 공격을 이용해 LLM 기반 표 생성기의 프라이버시 보장을 벤치마크할 수 있으며, 이는 암호 하드웨어에 대한 사이드‑채널 테스트와 유사합니다.

Limitations & Future Work

  • 숫자 누수 범위: 본 연구는 순수한 숫자 시퀀스에 초점을 맞추었으며, UUID나 해시된 이메일과 같은 혼합 알파벳 식별자는 평가되지 않아 다른 기억 패턴을 보일 수 있습니다.
  • 해시 가용성 가정: LevAtt는 훈련 데이터의 숫자 필드 해시가 필요합니다. 실제 상황에서는 공격자가 이 해시를 확보하거나 근사화해야 하는데, 이는 쉽지 않을 수 있습니다.
  • 데이터셋 크기 편향: 작은 고엔트로피 데이터셋에서 누수 비율이 더 높게 나타났으며, 수백만 행 규모의 산업용 테이블에 대한 확장은 아직 미해결 과제입니다.
  • 방어 일반화: digit‑perturbation은 숫자 토큰에 특화된 전략이므로, 범주형 또는 자유 텍스트 필드에 대한 저비용 변형 방안을 추가 연구해야 합니다.
  • 형식적 프라이버시 보장: 향후 작업에서는 변형 방식을 Rényi DP와 같은 형식적 보장과 결합해 합성 표 공개에 대한 정량적 위험 지표를 제공할 수 있습니다.

Authors

  • Joshua Ward
  • Bochao Gu
  • Chi-Hua Wang
  • Guang Cheng

Paper Information

  • arXiv ID: 2512.08875v1
  • Categories: cs.LG, cs.AI
  • Published: December 9, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »