[Paper] Discrete Diffusion Language Models의 스케일링 거동
발행: (2025년 12월 12일 오전 02:54 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.10858v1
Overview
이 논문은 Discrete Diffusion Language Models (DLMs) 가 지배적인 autoregressive language models (ALMs) 와 비교하여 어떻게 스케일링되는지를 조사한다. diffusion 노이즈를 마스크드에서 유니폼까지 체계적으로 변화시키고 주요 하이퍼파라미터를 튜닝함으로써, 실제 환경에서 diffusion 기반 모델이 계산 혹은 데이터 효율성을 가질 수 있는 별개의 스케일링 영역을 발견한다.
Key Contributions
- 포괄적인 스케일링 연구: 마스크드 ↔ 유니폼 범위의 다양한 diffusion 노이즈에 대해 DLM을 조사.
- 노이즈 의존 스케일링 법칙 식별: 유니폼 diffusion은 파라미터가 풍부하고 데이터가 적은 상황에 유리하며, 마스크드 diffusion은 그 반대의 특성을 보인다.
- 예측된 법칙의 실증적 검증: 약 (10^{22}) FLOPs 규모의 10‑billion‑parameter 유니폼 diffusion 모델을 학습시켜, 공개된 가장 큰 유니폼 diffusion LM임을 입증.
- 실용적인 배치‑사이즈 및 학습률 스케줄 가이드 제공, 이전 연구에서 남겨진 공백을 메움.
- 오픈소스 공개: 학습 스크립트와 체크포인트를 공개하여 재현성과 커뮤니티 확장을 지원.
Methodology
- 모델 패밀리 – 모든 실험에서 동일한 트랜스포머 백본을 사용하고, diffusion 목표(마스크드, 유니폼, 혹은 보간)만 교체한다.
- 노이즈 보간 – 스칼라 (\alpha)가 마스크드와 유니폼 손상을 부드럽게 혼합하여 연속적인 diffusion 유형을 탐색한다.
- 학습 체계 – 두 가지 주요 축을 탐색한다:
- Compute‑bound: 고정된 FLOP 예산 하에 모델 크기와 데이터 양을 변동.
- Data‑bound: 고정된 데이터셋 크기에서 파라미터와 계산량을 확대.
- 하이퍼파라미터 탐색 – 배치 크기(256~8192)와 학습률 스케줄(선형 워밍업 + 코사인 디케이)에 대한 체계적인 그리드 서치를 수행하여 스케일링 곡선에 미치는 영향을 분리.
- 평가지표 – 보유 검증 세트에 대한 표준 교차 엔트로피 손실과, 정성적 검증을 위한 다운스트림 제로샷 태스크(예: cloze, QA).
- 스케일링 법칙 피팅 – 각 노이즈 유형별로 (L = A \cdot (C)^{-\beta} + B) 형태의 파워‑law 피팅을 수행(C는 계산량).
Results & Findings
| Noise type | Compute‑bound scaling (loss) | Data‑bound scaling (loss) | Parameter‑efficiency | Data‑efficiency |
|---|---|---|---|---|
| Masked | 데이터가 많을수록 손실이 급격히 감소하지만, 계산량이 늘어날수록 일찍 평탄해짐 | 낮은 손실을 달성하려면 더 많은 데이터가 필요 | 데이터가 풍부할 때 작은 모델에 유리 | 데이터가 부족한 상황에서는 불리 |
| Uniform | 완만한 감소 곡선; 크기에 관계없이 비슷한 최종 손실 | 충분한 파라미터가 있으면 더 적은 데이터로도 더 나은 손실 달성 | 제한된 데이터에서도 큰 모델이 혜택 | 계산이 제한된 환경에서 데이터 효율이 높음 |
| Interpolated (mid‑range) | 두 극단 사이의 행동 | 전이적 특성을 보이며, 극단에 비해 뚜렷한 이점은 없음 | — | — |
- 10B 유니폼 diffusion 모델은 검증 손실이 비슷한 규모의 최고 성능 ALM보다 2 % 정도 차이만 보이며, 억 파라미터 규모에서도 예측된 스케일링 법칙이 유지됨을 확인했다.
- 동일한 계산 예산 하에서 유니폼 diffusion 모델은 마스크드 diffusion 대비 ≈30 % 적은 학습 토큰으로 동일한 손실에 도달했다.
- 배치 크기 스케일링은 고전적인 “선형 스케일링 규칙”을 배치 크기 ≈4096까지 따랐으며, 이후 특히 마스크드 diffusion에서 수익 감소가 나타났다.
Practical Implications
- 계산이 제한된 스타트업은 유니폼 diffusion LM을 선택할 수 있다: 큰 모델에 투자하되, 규모가 작은 정제된 데이터셋으로 학습해 데이터 획득 비용을 절감.
- 엣지 디바이스 파인튜닝: 유니폼 diffusion은 적은 데이터를 견디므로, 사전 학습된 10B diffusion 모델을 소규모 온‑디바이스 데이터셋으로 파인튜닝하면 자동회귀 모델보다 샘플 효율이 높을 수 있다.
- 학습 파이프라인: 논문의 배치‑사이즈 및 학습률 권고사항은 기존 트랜스포머 학습 스크립트(예: DeepSpeed, Megatron‑LM)에 바로 적용해 diffusion‑LM 실험을 가속화할 수 있다.
- 연구 도구: 오픈소스 체크포인트를 활용하면 대규모 학습 없이도 diffusion 모델을 코드 생성, 요약 등 다운스트림 작업에 벤치마크할 수 있다.
- 하이브리드 아키텍처: 노이즈 유형 간 부드러운 보간은 모델이 사용 가능한 계산량이나 데이터에 따라 동적으로 diffusion 영역을 전환할 수 있는 새로운 설계 공간을 제시한다.
Limitations & Future Work
- 작업 범위 – 평가가 언어 모델링 손실과 몇 가지 제로샷 벤치마크에 국한되어 있어, 추론·코딩 등 실제 활용도를 판단하려면 더 폭넓은 다운스트림 작업이 필요하다.
- 하드웨어 다양성 – 실험이 NVIDIA A100 GPU에서 수행됐으며, TPU나 최신 GPU 아키텍처에서의 스케일링 행동은 다를 수 있다.
- 에너지 고려 – FLOPs는 보고했지만 실제 에너지 소비와 탄소 영향을 측정하지 않았다.
- 이론적 기반 – 관찰된 노이즈 의존 스케일링 법칙은 실증적으로 도출됐으며, 정보 이론적 분석 등 깊은 이론적 설명이 필요하다.
- 하이브리드 diffusion – 향후 연구에서는 학습 중에 마스크드에서 유니폼 diffusion으로 전이하는 적응형 혹은 커리큘럼 기반 노이즈 스케줄을 탐색해 두 영역의 장점을 결합할 수 있다.
Authors
- Dimitri von Rütte
- Janis Fluri
- Omead Pooladzandi
- Bernhard Schölkopf
- Thomas Hofmann
- Antonio Orvieto
Paper Information
- arXiv ID: 2512.10858v1
- Categories: cs.LG
- Published: December 11, 2025
- PDF: Download PDF