[Paper] 마스크드 디퓨전 언어 모델을 넘어 스케일링

발행: 3일 전 (2026년 2월 17일 오전 03:54 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.15014v1

개요

논문 **“Scaling Beyond Masked Diffusion Language Models”**는 특히 널리 사용되는 마스크드 디퓨전(Masked diffusion)을 포함한 다양한 이산 디퓨전 전략이 수십억 개 파라미터 규모로 확장될 때 어떻게 동작하는지를 조사합니다. 퍼플렉시티, 계산 비용, 샘플링 속도를 체계적으로 측정함으로써, 저자들은 “최고 퍼플렉시티” 메트릭이 디퓨전 계열 간에 오해를 일으킬 수 있으며, 대안 디퓨전 방식이 더 효율적이고 특정 다운스트림 작업에서 마스크드 디퓨전을 능가할 수 있음을 밝혀냅니다.

주요 기여

첫 대규모 실증 연구로, uniform‑state와 interpolating diffusion 방법을 Masked diffusion과 함께 조사했으며, 1.7 B 파라미터까지의 모델을 포함합니다.
일반적인 디노이징 목표 대신 간단한 교차 엔트로피 손실로 학습할 때 Masked diffusion이 약 12 % FLOPs 효율 향상을 보임을 입증합니다.
퍼플렉시티가 확산 계열 전반에 걸쳐 생성 품질의 보편적인 대리 지표가 아님을 보여주며, 실제로는 속도‑품질 트레이드오프가 더 중요합니다.
uniform‑state diffusion이 가능도 벤치마크에서 Masked diffusion과 동등하거나 능가하고, 검증 퍼플렉시티가 높음에도 **GSM8K(수학 추론 벤치마크)**에서 Masked와 autoregressive 모델 모두를 능가한다는 것을 발견했습니다.
코드, 사전 학습 체크포인트, 튜토리얼 비디오를 공개하여 커뮤니티가 작업을 재현하고 확장할 수 있게 합니다.

Methodology

Model Families – 저자들은 세 가지 종류의 이산 확산 언어 모델을 훈련한다:
- Masked diffusion (현재 사실상의 표준).
- Uniform‑state diffusion, 확산 과정에서 각 토큰을 균등한 무작위 상태로 취급한다.
- Interpolating diffusion, 마스크된 단계와 균등 단계를 혼합한다.
Scaling Regime – 각 패밀리마다 여러 규모(≈125 M, 350 M, 1.7 B 파라미터)의 모델을 훈련시키며, 패밀리 간 훈련 연산 예산을 비슷하게 유지한다.
Training Objective – 전통적인 디노이징 손실 대신, plain cross‑entropy loss를 사용해 노이즈가 섞인 입력으로부터 원래 토큰을 직접 예측한다. 이 간단한 변화가 Masked diffusion에 대한 FLOPs 절감을 가져온다.
Evaluation Suite –
- Perplexity를 표준 언어 모델링 테스트 세트(예: WikiText‑103, C4)에서 측정.
- 단일 GPU에서 초당 토큰 수로 Sampling speed 측정.
- GSM8K(초등 수학) 및 기타 추론 벤치마크에서 Downstream task performance 평가.
- Pareto analysis를 통해 생성 품질(Perplexity 또는 과제 정확도)과 계산 비용 간의 trade‑off 시각화.
Analysis – 저자들은 각 확산 패밀리에 대해 scaling laws(모델 크기, 연산량, 성능 간 로그‑로그 관계)를 피팅하여 더 큰 모델로의 외삽을 가능하게 한다.

결과 및 발견

지표	Masked Diffusion	Uniform‑State Diffusion	Interpolating Diffusion
Perplexity (validation)	동일 계열 중 최고	Masked보다 약간 낮음	두 사이
FLOPs per training step	기준값	교차 엔트로피 사용 시 약 12 % 감소	Uniform와 비슷
Sampling speed (tokens/s)	~1.0× (기준)	약 1.4× 빠름	약 1.2× 빠름
GSM8K accuracy	71 %	78 % (최고)	74 %
Scaling exponent (size → perf.)	기존 diffusion 연구와 일치	비슷한 지수지만 절편이 높아 저‑컴퓨팅 영역에서 더 좋음	중간 수준

해석

Perplexity만으로는 충분하지 않음: Uniform‑State Diffusion은 Perplexity가 더 높지만 샘플링이 더 빠르고 수학 문제 해결률이 높음.
Cross‑entropy 학습은 품질을 손상시키지 않으면서 계산량을 줄여, Masked Diffusion에 비해 디노이징 목표가 과도하게 설계되었음을 시사함.
Pareto 경계는 동일한 계산 예산에서 Uniform‑State Diffusion이 종종 Masked Diffusion을 능가한다는 것을 보여주며, 특히 빠른 샘플링이 필요할 때 그렇다.

Practical Implications

Faster Generation for Production: Developers building chatbots, code assistants, or real‑time translation services can consider uniform‑state diffusion to halve latency while staying within the same compute budget.
Cost‑Effective Model Scaling: The 12 % FLOPs reduction means lower cloud‑training bills, making large diffusion models more accessible for startups and research labs.
Task‑Specific Model Choice: For reasoning‑heavy workloads (e.g., math tutoring, data‑analysis assistants), uniform‑state diffusion may yield higher downstream accuracy even if perplexity looks worse.
Simplified Training Pipelines: Switching to a plain cross‑entropy loss removes the need for complex noise‑schedule engineering, easing integration with existing deep‑learning frameworks (PyTorch, JAX).
Benchmarking Guidance: The paper encourages the community to report speed‑quality Pareto curves rather than a single perplexity number when comparing diffusion families.

실용적 시사점

프로덕션에서의 빠른 생성: 챗봇, 코드 어시스턴트, 실시간 번역 서비스 등을 구축하는 개발자는 동일한 연산 예산 내에서 지연 시간을 절반으로 줄일 수 있는 uniform‑state diffusion을 고려할 수 있습니다.
비용 효율적인 모델 확장: FLOPs가 12 % 감소하면 클라우드 학습 비용이 낮아져 스타트업 및 연구실에서도 대형 diffusion 모델을 보다 쉽게 활용할 수 있습니다.
작업별 모델 선택: 수학 튜터링, 데이터 분석 어시스턴트 등 추론이 많이 요구되는 워크로드에서는 perplexity가 다소 나빠 보여도 uniform‑state diffusion이 더 높은 다운스트림 정확도를 제공할 수 있습니다.
간소화된 학습 파이프라인: 단순한 교차 엔트로피 손실로 전환하면 복잡한 노이즈 스케줄 설계가 필요 없어 기존 딥러닝 프레임워크(PyTorch, JAX)와의 통합이 용이해집니다.
벤치마킹 가이드라인: 논문은 diffusion 계열을 비교할 때 단일 perplexity 수치 대신 속도‑품질 파레토 곡선을 보고하도록 커뮤니티에 권장합니다.

제한 사항 및 향후 연구

Evaluation Scope: 이 연구는 영어 데이터와 제한된 하위 작업 집합(주로 GSM8K)에 초점을 맞추고 있습니다. 다국어 또는 도메인‑특정 코퍼스로의 일반화는 아직 해결되지 않았습니다.
Sampling Algorithms: 저자들은 기본적인 역‑확산 샘플러를 사용했지만, 보다 정교한 샘플러(예: 적응형 스텝‑사이즈, 클래스‑가이드) 를 적용하면 속도‑품질 경계를 더욱 넓힐 수 있습니다.
Model Size Ceiling: 실험은 1.7 B 파라미터에서 멈추었으며, 메모리와 병렬성 제약이 지배적인 10 B+ 모델에서도 동일한 추세가 유지되는지는 불분명합니다.
Theoretical Understanding: 논문은 경험적으로 퍼플렉시티의 한계를 다양한 모델군에서 보여주지만, 왜 균일‑상태 확산이 하위 작업 추론에 더 유리한지에 대한 형식적인 분석은 제공하지 않습니다. 향후 연구에서는 확산 노이즈 패턴과 추론 능력 사이의 연관성을 탐구할 수 있습니다.

All code, pretrained checkpoints, and tutorial videos are publicly available at the project page: http://s-sahoo.github.io/scaling-dllms.

저자

Subham Sekhar Sahoo
Jean‑Marie Lemercier
Zhihan Yang
Justin Deschenaux
Jingyu Liu
John Thickstun
Ante Jukic

논문 정보

arXiv ID: 2602.15014v1
카테고리: cs.LG, cs.CL
출판일: 2026년 2월 16일
PDF: PDF 다운로드

[Paper] 마스크드 디퓨전 언어 모델을 넘어 스케일링

개요

주요 기여

Methodology

결과 및 발견

해석

Practical Implications

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 우리는 누구를 신뢰할 수 있을까? LLM-as-a-jury for Comparative Assessment

[Paper] 대규모 언어 모델에서 조합적 추론을 위한 재귀적 개념 진화

[Paper] TAROT: 테스트 기반 및 능력 적응형 커리큘럼 강화 파인튜닝을 통한 대형 언어 모델의 코드 생성

[Paper] 언어 통계의 대칭이 모델 표현의 기하학을 형성한다