[Paper] TAB-DRW: 생성형 테이블 데이터를 위한 DFT 기반 강인 워터마크
발행: (2025년 11월 27일 오전 02:16 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2511.21600v1
개요
이 논문은 AI 모델이 생성한 합성 표형 데이터에 적용할 수 있는 경량 워터마킹 기법 TAB‑DRW 를 소개한다. 데이터의 주파수 영역에 숨겨진 신호를 삽입함으로써, 데이터가 편집·변형된 후에도 출처를 증명할 수 있게 한다. 이는 합성 데이터셋을 공유하거나 판매하는 산업에서 점점 더 중요한 기능이다.
주요 기여
- 주파수 영역 워터마킹: 정규화된 표형 행에 이산 푸리에 변환(DFT)을 적용하고, 허수 성분을 조정해 의사난수 비트스트림을 인코딩한다.
- 혼합형 지원: Yeo‑Johnson 변환과 표준화를 통해 연속형, 순서형, 범주형 열을 하나의 파이프라인에서 처리한다.
- 행별, 메타데이터‑불필요 복원: 순위 기반 의사난수 생성기를 도입해 검증자가 임의의 행에 대해 워터마크를 실시간으로 재구성할 수 있게 하여 추가 메타데이터 저장을 없앤다.
- 후처리 강인성: 반올림, 스케일링, 노이즈 주입, 부분 행 삭제와 같은 일반적인 공격에 대한 복원력을 입증한다.
- 효율성: 전체 삽입·탐지 과정이 행 수에 대해 선형 시간으로 수행되어, 확산 모델 기반 워터마크의 높은 연산 비용을 피한다.
방법론
- 전처리
- 각 열을 Yeo‑Johnson 파워 변환(양·음값 모두 적용 가능) 후 표준화(평균 0, 분산 1)한다.
- 주파수 변환
- 정규화된 행 벡터를 1‑D DFT에 입력해 복소 계수(실수 + 허수)를 얻는다.
- 비트 삽입
- 순위 기반 PRNG가 데이터셋 내 정렬 위치에 따라 각 행에 대해 결정론적 의사난수 비트를 생성한다.
- 선택된 DFT 계수(에너지 낮은 성분을 피하도록 적응적으로 선택)의 허수 부분을 아주 작은 ε만큼 위·아래로 조정해 비트를 인코딩하면서 전체 행 분포는 유지한다.
- 역변환
- 역 DFT를 수행해 데이터를 원래 공간으로 복원하고, 표준화와 Yeo‑Johnson 역변환을 거쳐 워터마크가 삽입된 합성 테이블을 얻는다.
- 탐지
- 행을 검증하려면 동일한 정규화·DFT 과정을 적용하고, 동일한 계수 인덱스를 확인한 뒤 허수 부분의 부호를 기대되는 의사난수 비트와 매핑한다. 행 전체에 대한 다수결 투표로 전체 워터마크 존재 여부를 판단한다.
결과 및 발견
| 데이터셋 (5) | 워터마크 탐지율 | 후처리 공격에 대한 강인성 | 데이터 충실도 (원본 대비 RMSE) |
|---|---|---|---|
| Health‑Care | 99.2 % | 반올림, 노이즈(σ=0.01), 10 % 행 삭제 후 > 95 % | 0.018 |
| Finance | 98.7 % | 열 스케일링(±5 %) 후 93 % | 0.022 |
| Public‑Policy | 99.5 % | 범주형 레이블 섞기 후 96 % | 0.015 |
- 탐지율은 모든 벤치마크에서 98 % 이상을 유지하며, 합성 데이터가 공격적인 정제 과정을 거쳐도 높은 검출률을 보인다.
- 충실도 손실은 무시할 수준이며, 워터마크가 삽입된 데이터를 사용해 학습한 하위 ML 모델은 워터마크가 없는 데이터와 비교해 예측 성능이 < 0.5 %만 감소한다.
- 실행 시간: 100 k 행 테이블 삽입에 약 0.8 초(단일 CPU 코어) 소요되며, 이는 배치당 수분이 걸리는 확산 기반 워터마킹에 비해 수십 배 빠른 속도다.
실용적 함의
- 데이터 마켓플레이스는 저장 용량이나 생성 파이프라인 속도를 저하시키지 않으면서 보이지 않는 출처 태그를 삽입할 수 있어 자동 로열티 추적 및 오용 감지가 가능해진다.
- 규제 준수: 의료·금융 분야 조직은 합성 데이터셋이 승인된 생성기로부터 왔음을 증명해 데이터 라인에이지에 대한 감사 요구를 충족할 수 있다.
- Model‑as‑a‑Service (MaaS) 제공자는 “워터마크‑as‑a‑feature” API를 제공해 고객이 합성 데이터에 대한 귀속성을 보장받을 수 있다.
- 보안 도구: 순위 기반 PRNG 덕분에 검증자는 비밀 시드만 있으면 되며, 행별 키 목록이 필요 없어 CI 파이프라인에 쉽게 통합돼 배포 전 데이터 무결성을 검증할 수 있다.
제한점 및 향후 연구
- 행 순서 가정: 순위 기반 PRNG는 행의 안정적인 정렬에 의존한다. 정렬 키를 재적용하지 않고 데이터셋을 섞으면 탐지가 실패할 수 있다.
- 선형 변환에 한정: 매우 비선형적인 후처리(예: 워터마크된 데이터를 이용해 하위 GAN을 학습)에서는 신호가 약해질 수 있다. 저자들은 다중 주파수 삽입을 통해 강인성을 높이는 방안을 제시한다.
- 초고차원 테이블 확장성: 실행 시간은 선형이지만, 10 k 열을 초과하는 매우 넓은 테이블에 대한 DFT는 병목이 될 수 있다. 향후 블록‑단위 또는 웨이블릿 기반 대안을 탐색할 예정이다.
전반적으로 TAB‑DRW는 개발자가 합성 표형 자산을 보호할 수 있는 실용적이고 낮은 오버헤드의 경로를 제공하며, 학술적 워터마킹 연구와 실제 데이터 중심 제품 파이프라인 사이의 격차를 메워준다.
저자
- Yizhou Zhao
- Xiang Li
- Peter Song
- Qi Long
- Weijie Su
논문 정보
- arXiv ID: 2511.21600v1
- Categories: cs.CR, cs.LG
- Published: November 26, 2025
- PDF: Download PDF