[Paper] 기억 상실, 탐지 없음: 소형 언어 모델에서 출력 분포 기반 오염 탐지

발행: 2일 전 (2026년 3월 4일 오전 02:55 GMT+9)

7 분 소요

원문: arXiv

Source: arXiv - 2603.03203v1

개요

This paper investigates Contamination Detection via output Distribution (CDD)—a technique that flags whether a language model has been trained on a particular dataset by looking at how “peaked” its sampled outputs are. By running controlled experiments on small models (70 M–410 M parameters) and popular benchmark suites (GSM8K, HumanEval, MATH), the author shows that CDD only works when the fine‑tuning process actually memorizes the contaminated examples. Parameter‑efficient fine‑tuning (e.g., low‑rank adapters) can absorb the data without memorizing it, rendering CDD ineffective.

주요 기여

경험적 특성화 of CDD’s success/failure regimes on small language models.
통제된 오염 실험 on three widely used evaluation sets, enabling precise measurement of detection accuracy.
“기억 임계값” 발견: CDD works only when fine‑tuning capacity is high enough to cause verbatim memorization.
파라미터 효율적인 미세조정 (low‑rank adaptation) can hide contamination from output‑distribution methods.
오픈‑소스 구현 및 재현 가능한 스크립트 (GitHub link provided).

방법론

Model selection – 70 M에서 410 M 파라미터까지의 6가지 트랜스포머 모델을 목표 작업에 대해 파인튜닝했습니다.
Contamination injection – 각 벤치마크(GSM8K, HumanEval, MATH)마다 알려진 일부 예시를 고의로 파인튜닝 데이터에 추가했습니다.
Fine‑tuning strategies – 두 가지 접근법을 비교했습니다:
- Full‑parameter fine‑tuning (모든 가중치에 대한 표준 SGD 업데이트).
- Low‑rank adaptation (LoRA) – 기본 모델을 고정한 채 작은 학습 가능한 행렬을 추가하는 파라미터 효율적인 방법.
CDD measurement – 파인튜닝 후, 모델에 원본 테스트 입력을 제공하고 출력 확률 분포를 여러 번 샘플링합니다. 피크 정도(예: 균일 기준선으로부터의 KL‑다이버전스)를 오염 신호로 사용합니다.
Evaluation – 각 테스트 예시를 “오염됨” 또는 “깨끗함”으로 간주하고, CDD가 이를 올바르게 분류한 비율을 통해 탐지 정확도를 계산합니다.

결과 및 발견

파인‑튜닝 방법	모델 크기	탐지 정확도 (≈)
전체 파라미터	70 M – 410 M	70 % – 95 % (기억이 발생할 때 높음)
저차원 (LoRA)	70 M – 410 M	≈ 50 % (우연 수준)

기억이 핵심: 전체 파라미터 파인‑튜닝이 오염된 예시를 가중치에 그대로 복제할 때, CDD가 이를 신뢰성 있게 찾아냅니다.
저차원 어댑터는 기억 없이 학습: 모델의 오염된 작업 성능은 향상되지만 출력 분포는 여전히 퍼져 있어 CDD가 오염을 전혀 감지하지 못합니다.
임계값 효과: 파인‑튜닝 용량(학습 가능한 파라미터 수 또는 에폭 수)을 늘리면 모델이 “비기억”에서 “기억”으로 전환되는 명확한 전이점이 존재하고, 이때 CDD의 탐지 정확도는 무작위 수준에서 강력한 수준으로 급격히 상승합니다.

Practical Implications

Data provenance audits: 출력‑분포 검사를 사용해 모델이 독점 데이터로 학습되지 않았음을 인증하는 조직은 파라미터‑효율적인 파인‑튜닝이 이러한 검사를 우회할 수 있음을 인지해야 합니다.
Model licensing & compliance: 기본 모델 위에 LoRA‑스타일 어댑터를 사용할 경우, 감지 가능한 흔적 없이 저작권이 있거나 민감한 데이터를 무심코 도입할 수 있습니다.
Tooling for developers: 오픈‑소스 코드를 CI 파이프라인에 통합하여 새로운 파인‑튜닝 실행이 학습 데이터를 기억할 가능성이 있는지 자동으로 테스트할 수 있습니다.
Security & IP protection: 기업은 “방어적” 파인‑튜닝 방식을 설계(예: 어댑터 차원 제한, 정규화 추가)하여 사후에 감지하기 어려운 우발적인 데이터 유출 위험을 줄일 수 있습니다.

제한 사항 및 향후 연구

스케일: 실험은 410 M 파라미터에서 중단되었습니다; 1 B+와 같은 더 큰 모델에서도 기억 임계값이 유사하게 동작하는지는 아직 미지입니다.
데이터셋 다양성: 세 가지 벤치마크 스위트만 조사했으며, 다른 도메인(코드, 대화, 다국어 텍스트)에서는 다른 기억 역학이 나타날 수 있습니다.
탐지 메트릭: CDD는 단일 피크니스 통계에 의존합니다; 이를 다른 신호(예: 그래디언트 기반 프로빙)와 결합하면 견고성을 향상시킬 수 있습니다.
적응 전략: 이 연구는 LoRA에 초점을 맞췄으며, 다른 파라미터 효율 방법(프리픽스 튜닝, 어댑터, IA³)도 체계적인 평가가 필요합니다.

저자들은 GitHub에 전체 실험 파이프라인을 제공하여 실무자가 분석을 재현하고 확장하기 쉽게 만들었습니다.

저자

Omer Sela

논문 정보

arXiv ID: 2603.03203v1
분류: cs.AI, cs.CL
출판일: 2026년 3월 3일
PDF: PDF 다운로드

[Paper] 기억 상실, 탐지 없음: 소형 언어 모델에서 출력 분포 기반 오염 탐지

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] World Models 없이 세계 속성: 정적 Word Embeddings의 Co-occurrence Statistics에서 공간 및 시간 구조 복원

[Paper] SWE-CI: Continuous Integration을 통한 코드베이스 유지 관리에서 에이전트 역량 평가

[Paper] LLM 스티어링에서 데이터셋 손상 이해 및 완화

[Paper] MoD‑DPO: Omni LLM에서 Cross‑modal Hallucinations를 완화하기 위한 Modality Decoupled Preference Optimization 활용