DreamReasoner-8B: 확산 추론을 위한 블록 크기 커리큘럼 학습

발행: 1일 전 (2026년 6월 18일 AM 01:34 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.19257v1

개요

블록 디퓨전 언어 모델은 병렬 블록 단위 덴오이징을 통해 디코딩 속도를 가속화하지만, 장거리 연역(Chain-of-Thought, CoT) 추론에 대해 신뢰할 수 있게 확장될 수 있는지는 아직 명확하지 않다. 이를 위해 우리는 DreamReasoner-8B라는 오픈소스 블록 디퓨전 추론 모델을 개발하고, 훈련 및 추론 블록 크기가 장거리 CoT 추론에 미치는 영향을 체계적으로 연구한다. 분석 결과, 큰 블록 크기로 훈련하면 현저히 나쁜 추론 성능이 나타나는 반면, 작은 블록 크기는 효과적인 추론을 유지한다는 뚜렷한 격차를 확인했다. 이 격차를 해소하기 위해 우리는 블록 크기 커리큘럼 학습을 제안한다. 이는 훈련을 미세한 블록 크기에서 거시적인 블록 크기로 점진적으로 전환시켜 이 한계를 극복하고, 다양한 추론 블록 크기에 일반화되는 강력한 추론 성능을 가능하게 한다. 수학적 및 코드 추론 벤치마크에서는 DreamReasoner-8B가 Qwen3-8B와 같은 최첨단 오픈 자동회귀 모델과 경쟁할 수준의 결과를 달성한다. 본 연구는 효율적이고 추론 가능한 디퓨전 언어 모델을 위한 실용적인 기반을 마련한다는 점을 강조한다. 우리는 모델을 https://github.com/DreamLM/DreamReasoner에서 공개한다.

주요 공헌

이 논문은 다음 분야의 연구를 제시합니다:

cs.CL

방법론

자세한 방법은 전체 논문을 참고하십시오.

실용적 의미

본 연구는 cs.CL의 발전에 기여한다.

저자

지르우이 우
린 정
자이청 예
샨산 곤
쉬롱 자오
얀송 펑
위 비
링펭 공

논문 정보

arXiv ID: 2606.19257v1
카테고리: cs.CL
발행일: 2026년 6월 17일
PDF: PDF 다운로드

DreamReasoner-8B: 확산 추론을 위한 블록 크기 커리큘럼 학습

개요

주요 공헌

방법론

실용적 의미

저자

논문 정보

관련 글

네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

[논문] 튜링 보상으로 사용자 시뮬레이터 학습

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation