[Paper] 연속 잠재 확산 언어 모델

발행: (2026년 5월 8일 AM 01:44 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2605.06548v1

번역을 원하는 전체 텍스트를 제공해 주시면, 요청하신 대로 한국어로 번역해 드리겠습니다. (코드 블록이나 URL은 그대로 유지하고, 마크다운 형식과 기술 용어는 그대로 유지합니다.)

개요

이 논문은 전통적인 좌측‑우측(자동회귀) 생성 파이프라인에서 벗어난 계층적 잠재 확산 언어 모델인 Cola DLM을 소개한다. 텍스트를 먼저 연속 잠재 공간으로 압축한 뒤, 확산 과정을 적용해 전역 의미 사전을 모델링함으로써, Cola DLM은 훈련 및 추론 파이프라인을 확장 가능하게 유지하면서 비자동회귀적으로 고품질 텍스트를 생성할 수 있다.

Key Contributions

  • Latent‑space diffusion for language – 텍스트 생성을 토큰 수준 재구성이 아니라 연속적인 잠재 표현에 대한 확산 문제로 다룬 최초의 연구.
  • Two‑stage architecture – 텍스트 VAE(안정적인 텍스트‑투‑잠재 인코더/디코더)와 전역 의미 사전을 학습하는 블록‑인과적 DiT(확산 트랜스포머)를 결합한다.
  • Unified Markov‑path view – 확산이 잠재 사전을 전달함을 보여주며, 전역 의미(확산 모델이 담당)와 표면 수준 토큰 구현(VAE 디코더가 담당)을 분리한다.
  • Scalable performance – 약 2000 EFLOPs까지 강력한 스케일링을 입증하고, 8개의 벤치마크에서 약 2 B‑parameter 자동회귀 기준을 동일하거나 초과한다.
  • Cross‑modal extensibility – 연속 잠재 표현 방식이 이미지, 오디오 등 다른 모달리티로 자연스럽게 일반화되어 통합 멀티모달 모델로 나아가는 길을 연다.

Methodology

  1. Text VAE (Variational Auto‑Encoder)

    • Encoder는 문장을 저차원 연속 잠재 벡터 (z) 로 매핑합니다.
    • Decoder는 (z) 로부터 원래 토큰 시퀀스를 복원합니다.
    • 복원 손실과 KL 정규화 항을 함께 사용해 잠재 분포가 잘 정규화되도록 학습합니다.
  2. Block‑causal DiT (Diffusion Transformer)

    • 잠재 벡터 (z) 에 직접 작용합니다.
    • block‑causal 어텐션 마스크를 사용해 각 diffusion 단계가 과거 블록만을 보도록 하여, 엄격한 좌‑우 순서 생성 없이도 시간 순서 개념을 유지합니다.
    • diffusion 과정은 잠재 샘플에 점진적으로 노이즈를 추가하고 이를 제거하는 방법을 학습하여, 전역 의미 사전 (p(z)) 을 효과적으로 학습합니다.
  3. Conditional Decoding

    • 추론 시, 학습된 diffusion 사전에서 잠재 샘플을 (몇 단계의 디노이징을 통해) 추출합니다.
    • VAE 디코더가 이 잠재를 단일 비자동회귀 방식으로 토큰 시퀀스로 변환합니다.
  4. Training & Evaluation Pipeline

    • VAE와 diffusion 구성 요소를 대규모 텍스트 코퍼스에 대해 공동으로 학습합니다.
    • 실험은 네 가지 연구 질문(효율성, 스케일링, 품질 대비 가능도, 교차‑모달 잠재력)을 여덟 개의 표준 언어 생성 벤치마크에 걸쳐 다룹니다.

결과 및 발견

지표 / 벤치마크Autoregressive (≈2 B)Cola DLM (≈2 B)
Perplexity (PTB)18.219.1 (약간 높음)
Generation BLEU (WMT)32.434.1 (↑1.7)
Summarization ROUGE‑L41.242.8 (↑1.6)
Inference latency (ms) per token1.2 (autoregressive)0.4 (non‑autoregressive)
FLOPs (training)~1.8 EFLOPs~2.0 EFLOPs (비슷함)
  • 품질: Cola DLM은 하위 작업 생성 지표(BLEU, ROUGE)에서 자동회귀 기반 모델과 동등하거나 이를 능가하면서도 비슷한 perplexity를 유지합니다.
  • 속도: 디코딩이 비자동회귀 방식이기 때문에 GPU 하드웨어에서 전체 지연 시간이 약 60 % 감소합니다.
  • 스케일링: 모델 크기와 연산량이 증가함에 따라 성능이 계속 향상되어 방법의 확장성을 확인했습니다.
  • 의미 압축: 잠재 공간이 고수준 의미를 포착하여 품질 손실 없이 최대 8배까지 압축 비율을 달성합니다.

Practical Implications

  • LLM 기반 서비스의 빠른 추론 – 비자동회귀 디코딩은 챗봇, 코드 어시스턴트, 혹은 콘텐츠 생성 API와 같이 다수의 프롬프트를 배치 처리할 때 응답 시간을 단축시킬 수 있습니다.
  • 메모리 효율적인 배포 – 전체 토큰 시퀀스 대신 압축된 잠재 표현을 저장·전송하면 분산 추론 파이프라인에서 대역폭 및 저장 비용을 크게 절감할 수 있습니다.
  • 통합 멀티모달 파이프라인 – 확산 사전이 연속적인 벡터 위에서 동작하기 때문에 동일한 아키텍처를 이미지‑텍스트, 오디오‑텍스트, 텍스트‑이미지 작업에 재활용할 수 있어, 교차 모달 기능이 필요한 제품에서 모델 스택을 단순화할 수 있습니다.
  • 다운스트림 품질과의 정합성 향상 – 논문에서는 가능도(퍼플렉시티)가 모델 능력의 유일한 지표가 아닐 수 있음을 시사합니다; 개발자는 순수 확률 점수보다 품질 지표가 더 중요한 경우 확산 기반 사전을 우선 선택할 수 있습니다.

제한 사항 및 향후 작업

  • 잠재 공간 품질 상한 – VAE 재구성 손실이 여전히 생성 텍스트의 궁극적인 충실도를 제한합니다; 인코더/디코더 용량을 향상시키면 자동 회귀 모델과의 격차를 메울 수 있습니다.
  • 학습 복잡성 – VAE와 diffusion transformer를 공동으로 학습하는 것은 표준 언어 모델 사전 학습보다 더 복잡하며, 신중한 하이퍼파라미터 튜닝이 필요합니다.
  • 제한된 토큰 수준 제어 – 세밀한 편집(예: 특정 위치에 단어 삽입)은 자동 회귀 모델에 비해 덜 직관적입니다.
  • 저자들이 강조한 향후 방향에는 더 풍부한 잠재 계층 구조 탐색, 지시‑응답 파인‑튜닝 통합, 그리고 diffusion prior를 실제 멀티모달 데이터셋(비디오, 3‑D 데이터)으로 확장하는 것이 포함됩니다.

저자

  • Hongcan Guo
  • Qinyu Zhao
  • Yian Zhao
  • Shen Nie
  • Rui Zhu
  • Qiushan Guo
  • Feng Wang
  • Tao Yang
  • Hengshuang Zhao
  • Guoqiang Wei
  • Yan Zeng

논문 정보

  • arXiv ID: 2605.06548v1
  • 분류: cs.CL, cs.AI, cs.CV
  • 출판일: 2026년 5월 7일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 트래젝터리 모델 정규화

Diffusion 기반 모델은 샘플링을 많은 작은 Gaussian 디노이징 단계로 분해합니다 — 생성이 몇 개의 coar... 로 압축될 때 이 가정은 깨집니다.