[Paper] ReFusion: 병렬 자동회귀 디코딩을 갖춘 Diffusion 대형 언어 모델
Source: arXiv - 2512.13586v1
Overview
이 논문은 ReFusion을 소개한다. 이는 diffusion 기반 병렬 디코딩의 속도와 autoregressive (AR) 생성의 신뢰성을 결합한 새로운 대형 언어 모델 계열이다. 디코딩 과정을 슬롯—고정 길이 토큰 청크—주위로 재구성함으로써 ReFusion은 전통적인 AR 모델의 품질을 유지하면서도 추론 속도를 크게 높여, 실시간 AI 서비스에 매력적인 선택이 된다.
Key Contributions
- Slot‑level parallelism: “plan‑and‑infill” 프레임워크를 도입하여 먼저 어떤 슬롯을 독립적으로 생성할 수 있는지 (diffusion 단계) 계획하고, 그 다음 AR 디코더를 사용해 병렬로 채운다.
- KV‑cache reuse: AR 모델의 인과적 어텐션 구조를 유지하면서 디코딩 단계 전반에 걸쳐 키‑값 캐시를 완전 재사용하고, 마스크된 diffusion 모델에서 흔히 발생하는 무거운 메모리 오버헤드를 없앤다.
- Reduced learning complexity: 조합 폭발을 토큰 수준 순열에서 다루기 쉬운 슬롯 수준 순열 공간으로 옮겨 학습 안정성과 생성 일관성을 향상시킨다.
- Strong empirical gains: 기존 마스크된 diffusion 모델 대비 평균 34 % 성능 향상을 보이고, 지연 시간에서 18배 가속을 달성했으며, 여전히 강력한 AR 베이스라인보다 평균 2.33배 우수하다.
- Broad benchmark coverage: 요약, 코드 생성, 대화 등 일곱 가지 다양한 언어 작업에서 접근법을 검증했으며, 도메인 전반에 걸쳐 일관된 이점을 보여준다.
Methodology
- Slot Definition – 입력 시퀀스는 고정된 토큰 길이(예: 8‑12 토큰)의 연속적인 슬롯으로 분할됩니다. 각 슬롯은 병렬 계획을 위한 원자 단위로 취급됩니다.
- Plan Phase (Diffusion) – 마스크된 확산 모델이 계획을 예측하여 어떤 슬롯이 “약하게 의존적”이며 다른 슬롯을 기다리지 않고 생성될 수 있는지를 표시합니다. 이 단계는 모든 슬롯에 대해 병렬로 실행되며, 무작위 초기화를 점진적으로 잡음 제거하여 타당한 슬롯‑선택 마스크로 수렴하는 확산 과정을 활용합니다.
- Infill Phase (Autoregressive) – 계획에서 선택된 슬롯에 대해 표준 AR 디코더가 실제 토큰 내용을 생성합니다. 슬롯이 독립적이므로 디코더는 기존 트랜스포머와 마찬가지로 인과적 어텐션 마스크와 KV 캐시를 사용하면서도 동시에 이를 처리할 수 있습니다.
- Iterative Refinement – 계획‑채우기 루프를 전체 시퀀스가 채워질 때까지 반복하며, 미디코딩 슬롯 수를 점진적으로 감소시킵니다. 이 반복적 접근 방식은 병렬성(초기 슬롯)과 세밀한 AR 품질(후기 슬롯)을 균형 있게 조절합니다.
전체 아키텍처는 단일 통합 트랜스포머 백본을 유지하여 배포를 단순화합니다. 동일한 모델 가중치가 확산 계획과 AR 채우기 모두에 사용됩니다.
결과 및 발견
| Benchmark | Metric (higher is better) | ReFusion vs. Prior MDM | ReFusion vs. Strong ARM |
|---|---|---|---|
| Summarization (XSum) | ROUGE‑L | +34 % | +12 % |
| Code Generation (HumanEval) | Pass@1 | +28 % | +5 % |
| Open‑Domain QA (NaturalQuestions) | Exact Match | +31 % | +8 % |
| … (4 other tasks) | — | 일관된 30‑35 % 상승 | 6‑10 % 상승 |
- Latency: 평균 추론 시간이 ~1.2 s (MDM)에서 ~0.07 s로 감소했으며, 18× 가속을 달성했습니다. 최고 수준의 AR 모델과 비교했을 때, ReFusion은 여전히 약 2.3× 더 빠르게 실행됩니다.
- Memory: KV‑cache 재사용으로 마스크‑디퓨전 기준 대비 피크 GPU 메모리가 약 40 % 감소하여 더 큰 배치 크기를 사용할 수 있습니다.
- Ablation: 슬롯‑레벨 플랜을 제거하거나 KV 캐싱을 비활성화하면 BLEU/ROUGE가 눈에 띄게 감소하고 지연 시간이 증가하여 각 구성 요소의 중요성을 확인할 수 있습니다.
Practical Implications
- Real‑time AI services – 챗봇, 코드 어시스턴트, 요약 API가 이제 AR 모델이 제공하는 섬세한 언어 품질을 희생하지 않으면서 거의 즉각적인 응답을 제공할 수 있습니다.
- Cost efficiency – 더 빠른 추론과 낮은 메모리 사용량은 GPU 사용 시간을 직접적으로 감소시켜 대규모 배포(예: SaaS 플랫폼)를 보다 경제적으로 만듭니다.
- Simplified infrastructure – ReFusion이 계획과 채우기 모두에 단일 트랜스포머 모델을 사용하기 때문에 기존 서빙 스택(예: TensorRT, ONNX Runtime)은 최소한의 변경만 필요합니다; 추론 루프만이 계획‑채우기 단계를 조정하면 됩니다.
- Hybrid workloads – 개발자는 슬롯 크기나 디퓨전 단계 수를 조정하여 속도와 품질 사이의 균형을 맞출 수 있어, 지연 시간에 민감한 시나리오나 품질에 중점을 둔 시나리오에 모델을 맞춤화할 수 있습니다.
- Extensibility – 슬롯 수준 추상화는 검색 강화 생성(RAG)이나 멀티모달 입력과 결합될 수 있어, 더 빠른 RAG 파이프라인이나 비전‑언어 모델을 위한 길을 열어줍니다.
제한 사항 및 향후 연구
- Slot granularity trade‑off – 슬롯 길이를 선택하는 것은 하이퍼파라미터이며, 슬롯이 너무 크면 의존성 오류가 다시 발생할 수 있고, 너무 작으면 병렬성 이득이 감소합니다. 적응형 슬롯 크기 조정은 아직 연구가 필요한 분야입니다.
- Diffusion overhead for very long sequences – 수천 토큰을 초과하는 문서의 경우, diffusion 계획 단계가 병목이 될 수 있으며, 계층적 계획이 필요할 수 있습니다.
- Domain‑specific fine‑tuning – 논문이 강력한 제로샷 성능을 보여주지만, 법률이나 의료 텍스트와 같은 특수 도메인에 대한 파인튜닝은 슬롯 일관성을 유지하기 위한 추가 전략이 필요할 수 있습니다.
- Theoretical analysis – 논문은 실증적 증거를 제공하지만 슬롯 수준 독립성 가정으로 인한 오류에 대한 형식적인 경계가 부족합니다; 향후 연구에서는 이러한 보장을 정형화할 수 있습니다.
전반적으로 ReFusion은 빠르고 고품질의 언어 생성 분야의 한계를 확장하며, diffusion 모델의 속도와 autoregressive 디코더의 신뢰성을 연결하는 실용적인 다리를 제공합니다—차세대 AI 제품을 구축하는 모든 개발자에게 매력적인 제안입니다.
저자
- Jia‑Nan Li
- Jian Guan
- Wei Wu
- Chongxuan Li
논문 정보
- arXiv ID: 2512.13586v1
- 분류: cs.CL, cs.AI, cs.LG
- 출판일: 2025년 12월 15일
- PDF: PDF 다운로드