DreamReasoner-8B: 확산 추론을 위한 블록 크기 커리큘럼 학습
개요
블록 디퓨전 언어 모델은 병렬 블록 단위 덴오이징을 통해 디코딩 속도를 가속화하지만, 장거리 연역(Chain-of-Thought, CoT) 추론에 대해 신뢰할 수 있게 확장될 수 있는지는 아직 명확하지 않다. 이를 위해 우리는 DreamReasoner-8B라는 오픈소스 블록 디퓨전 추론 모델을 개발하고, 훈련 및 추론 블록 크기가 장거리 CoT 추론에 미치는 영향을 체계적으로 연구한다. 분석 결과, 큰 블록 크기로 훈련하면 현저히 나쁜 추론 성능이 나타나는 반면, 작은 블록 크기는 효과적인 추론을 유지한다는 뚜렷한 격차를 확인했다. 이 격차를 해소하기 위해 우리는 블록 크기 커리큘럼 학습을 제안한다. 이는 훈련을 미세한 블록 크기에서 거시적인 블록 크기로 점진적으로 전환시켜 이 한계를 극복하고, 다양한 추론 블록 크기에 일반화되는 강력한 추론 성능을 가능하게 한다. 수학적 및 코드 추론 벤치마크에서는 DreamReasoner-8B가 Qwen3-8B와 같은 최첨단 오픈 자동회귀 모델과 경쟁할 수준의 결과를 달성한다. 본 연구는 효율적이고 추론 가능한 디퓨전 언어 모델을 위한 실용적인 기반을 마련한다는 점을 강조한다. 우리는 모델을 https://github.com/DreamLM/DreamReasoner에서 공개한다.
주요 공헌
이 논문은 다음 분야의 연구를 제시합니다:
- cs.CL
방법론
자세한 방법은 전체 논문을 참고하십시오.
실용적 의미
본 연구는 cs.CL의 발전에 기여한다.
저자
- 지르우이 우
- 린 정
- 자이청 예
- 샨산 곤
- 쉬롱 자오
- 얀송 펑
- 위 비
- 링펭 공
논문 정보
- arXiv ID: 2606.19257v1
- 카테고리: cs.CL
- 발행일: 2026년 6월 17일
- PDF: PDF 다운로드