[논문] Sumi: 처음부터 만든 오픈 유니폼 디퓨전 언어 모델
개요
확산 모델은 자동회귀 모델에 대한 유망한 대안으로 부상했습니다. 그중에서 균일한 확산 언어 모델(UDLMs)은 어느 시점에서도 토큰을 업데이트할 수 있도록 허용하며, 이론적으로 더 유연한 생성이 가능합니다. 하지만 현재까지는 대규모 파라미터 규모와 대규모 토큰 예산 모두에서 처음부터 사전학습된 UDLM은 존재하지 않습니다. 자동회귀 모델과 마스크화 확산 모델은 이미 대규모에서 충분히 성능을 발휘하는 모델들이 존재해 커뮤니티가 연구하고 구축할 수 있지만, 균일한 확산 분야에는 그러한 모델이 없습니다. 대규모에서 처음부터 사전학습한 UDLM은 확산 모델의 확장 동작, 생성 역학, 제어 가능성, 그리고 기존 자동회귀 및 마스크화 확산 모델에 대한 트레이드오프를 연구하는 데 깨끗한 기준점이 될 것입니다. 이 목표를 위해 우리는 일본어 “Sumi”(잉크)라는 완전히 오픈소스 70억 파라미터 규모의 균일한 확산 언어 모델을 처음부터 1.5조 토큰으로 사전학습했습니다. Sumi는 지식, 추론, 코딩 벤치마크에서 토큰 예산이 비슷한 자동회귀 모델과 경쟁적으로 수행하지만, 상식 벤치마크에서는 우리 데이터가 교육 중심이기 때문에 성능이 다소 낮습니다. 우리는 모델 가중치, 체크포인트, 전체 학습 레시피를 공개하며, 공개된 코퍼라에 대한 데이터 혼합 사양을 완전히 제공합니다. 이 발표가 커뮤니티가 규모에서 원시적인 균일한 확산을 연구하고, 아직 충분히 이해되지 않은 측면을 촉진하기를 바랍니다.
주요 공헌
이 논문은 다음 분야를 다룹니다:
- cs.CL
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.CL 분야의 발전에 기여합니다.
Authors
- Mengyu Ye
- Keito Kudo
- Wataru Ikeda
- Ryosuke Matsuda
- Keisuke Sakaguchi
- Jun Suzuki
Paper Information
- arXiv ID: 2606.19005v1
- 카테고리: cs.CL, cs.LG
- 게시일: 2026년 6월 17일
- PDF: PDF 다운로드