[Paper] MarkTune: Open-Weight LLM 워터마킹에서 품질‑탐지성 트레이드오프 개선
Source: arXiv - 2512.04044v1
개요
이 논문은 MarkTune이라는 새로운 방식의 워터마크를 공개 가중치 대형 언어 모델(LLM)의 출력에 적용하는 방법을 소개한다. 모델의 추론 과정을 조정하는 대신 모델 자체를 미세조정함으로써, MarkTune은 텍스트 품질을 유지하면서 비밀 키로 숨겨진 워터마크를 신뢰성 있게 탐지할 수 있는 균형을 크게 개선한다.
주요 기여
- 온‑정책 미세조정 프레임워크: 기존 GaussMark 워터마크 신호를 보상으로 사용하고 품질 손실을 명시적으로 페널티화한다.
- 이론적 정당성: MarkTune이 GaussMark의 가중치 교란 접근법보다 왜 개선되는지를 설명한다.
- 실증적 증거: 모델 가중치가 공개된 상태에서도 MarkTune이 추론 시점 워터마크에 근접한 품질‑탐지성 경계를 달성함을 보여준다.
- 견고성 분석: 패러프레이징, 다운스트림 미세조정 공격, 그리고 보이지 않는 데이터셋에 대한 강한 일반화 저항성을 입증한다.
- 실용적인 레시피: 개발자가 생성 유창성을 희생하지 않고 어떤 공개 가중치 LLM에도 내구성 있는 워터마크를 삽입할 수 있도록 안내한다.
방법론
- GaussMark에서 시작 – 특정 모델 파라미터에 가우시안 형태의 바이어스를 추가해 비밀 키로 탐지 가능한 숨겨진 신호를 만드는 가벼운 가중치 교란 워터마크.
- 보상 함수 정의 – 생성된 텍스트에서 GaussMark 신호가 얼마나 강하게 나타나는지를 측정(예: 워터마크 탐지기의 로그우도).
- 품질 정규화항 추가 – 표준 언어 모델 지표(퍼플렉시티, BLEU, 혹은 인간 평가 유창성)의 편차에 페널티를 부여.
- 온‑정책 미세조정: 모델을 실행하고 텍스트를 샘플링한 뒤, 결합 보상(워터마크 강도 – λ × 품질 손실)을 계산하고 역전파하여 가중치를 업데이트.
- 반복 – 워터마크 탐지율이 목표에 도달하고 품질 지표가 허용 가능한 감소(보통 퍼플렉시티 증가 < 2 %) 내에 있을 때까지 진행.
미세조정 루프가 워터마크 탐지성을 직접 관찰하기 때문에, 이전 방법에서 유창성을 해치는 대규모 가중치 변화를 피하면서 표현 공간을 세밀하게 조정할 수 있다.
결과 및 발견
| Metric | GaussMark (baseline) | MarkTune | Inference‑time watermark* |
|---|---|---|---|
| 탐지 정확도 (키‑알려짐) | 78 % | 92 % | 95 % |
| 퍼플렉시티 증가 | +6 % | +1.8 % | +0.5 % |
| 패러프레이징에 대한 견고성 (탐지 감소) | –15 % | –3 % | –2 % |
| 교차‑데이터셋 전이 (Wiki 학습, News 테스트) | 65 % | 84 % | 86 % |
*Inference‑time watermark는 토큰 샘플링 단계에서 (예: 그린리스트/레드리스트 방식) 변형을 가하는 방법을 의미한다.
주요 시사점
- MarkTune은 추론 시점 워터마크와의 격차를 좁히면서 모델의 생성 품질을 사실상 그대로 유지한다.
- 워터마크는 패러프레이징이나 다운스트림 작업에 대한 추가 미세조정과 같은 일반적인 공격을 견뎌낸다.
- 하나의 MarkTune 실행만으로도 완전히 다른 텍스트 도메인에서 탐지가 가능한 워터마크를 확보할 수 있다.
실용적 함의
- 오픈소스 모델 배포자는 모델 가중치에 검증 가능한 출처 태그를 직접 삽입할 수 있어, 런타임 파이프라인을 변경하지 않고도 하위 사용자가 진위성을 증명할 수 있다.
- 컴플라이언스·감사 도구는 비밀 키를 사용해 모델 출력에 질의를 보내 해당 텍스트가 워터마크된 모델에서 생성됐는지 확인함으로써 지식재산 보호와 허위정보 탐지에 기여한다.
- 엣지 디바이스 배포(추론 시점 개입이 비용이 많이 들거나 불가능한 경우)에서는 사전 워터마크된 모델만 사용하면 통합이 간단해진다.
- 미세조정 서비스(예: 맞춤형 인스트럭션 튜닝)에서는 MarkTune을 사전 단계로 적용해 파생 모델이 워터마크를 물려받게 함으로써 모델 포크 간 추적성을 유지한다.
전반적으로 MarkTune은 플러그‑인 방식 솔루션을 제공한다: 짧은 미세조정 작업(수천 스텝 정도)만 수행하면 원본과 동일하게 동작하면서도 강력한 비밀 키 탐지 서명을 가진 모델을 얻을 수 있다.
제한점 및 향후 연구
- 계산 비용: 전체 모델 재학습보다 훨씬 저렴하지만, 온‑정책 미세조정 루프가 필요하므로 70 B 파라미터 이상과 같은 초대형 모델에는 여전히 부담이 될 수 있다.
- 비밀 키 관리: 탐지는 키가 비밀로 유지될 때만 가능하므로, 키 회전이나 폐기 전략에 대한 논의가 부족하다.
- 적대적 적응: 기본적인 패러프레이징·미세조정 공격에는 견고하지만, 의도적인 “워터마크 제거” 모델을 학습하는 공격자는 존재한다. 향후 적대적 학습을 통해 신호를 강화하는 방안을 탐색할 수 있다.
- 평가 범위: 실험은 영어 코퍼스에 국한되어 있어, 다국어 모델이나 코드 생성 분야로 확장하는 것이 남은 과제이다.
저자들은 보다 효율적인 미세조정 알고리즘(예: LoRA 또는 어댑터) 적용과 적응형 공격자에 대한 형식적 보안 보장을 정립하는 방향을 차기 연구 목표로 제시한다.
저자
- Yizhou Zhao
- Zhiwei Steven Wu
- Adam Block
논문 정보
- arXiv ID: 2512.04044v1
- Categories: cs.LG, cs.AI, cs.CR
- Published: December 3, 2025
- PDF: Download PDF