[Paper] FOCUS: DLLMs는 Compute Bound를 제어하는 방법을 알고 있다

발행: (2026년 1월 31일 오전 03:52 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2601.23278v1

(번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.)

개요

Diffusion Large Language Models (DLLM)은 기존 자동 회귀 LLM보다 더 높은 품질의 텍스트 생성을 약속하지만, 추론 비용 때문에 실제 프로덕션 파이프라인에 적용되지 못하고 있습니다. 이 논문은 DLLM 디코딩에서 근본적인 비효율성을 밝혀내고, 실제로 디코딩이 필요한 토큰에 계산을 동적으로 집중시키는 런타임 시스템 FOCUS를 소개합니다. 이를 통해 출력 품질을 손상시키지 않으면서 3.5× 높은 처리량을 달성합니다.

주요 기여

  • 병목 현상 식별: 각 diffusion 단계에서 전체 토큰 중 극히 일부만 디코딩 가능하고 나머지는 여전히 GPU 사이클을 소비한다는 것을 보여준다.
  • 상관관계 인사이트: attention 기반 토큰 중요도 점수와 다음 단계에서 토큰이 디코딩될 확률 사이에 강한 연관성이 있음을 입증한다.
  • FOCUS 추론 엔진: 디코딩 가능한 토큰에 GPU 자원을 집중하고 나머지는 실시간으로 퇴출시키는 동적 스케줄링 알고리즘을 설계하여 실제 배치 크기를 효과적으로 늘린다.
  • 오픈소스 구현: 기존 DLLM 서빙 스택에 바로 삽입할 수 있는 (LMDeploy와 호환되는) 프로덕션 준비 라이브러리를 공개한다.
  • 실증 검증: 표준 벤치마크(예: WikiText, CommonGen)에서 **3.52×**까지 처리량 향상을 달성하면서 생성 품질(BLEU, ROUGE, 인간 평가 점수)을 유지하거나 개선한다.

방법론

  1. DLLM 디코딩 프로파일링: 저자들은 최신 확산 LLM에 계측을 적용하여 확산 단계별 토큰당 연산량을 측정했습니다. 대부분의 GPU 커널이 아직 샘플링 준비가 되지 않은 토큰을 처리하고 있음을 관찰했습니다.
  2. Attention 기반 중요도 메트릭: 모델 내부 레이어에서 어텐션 가중치를 추출해 각 토큰에 대한 가벼운 “중요도 점수”를 도출했습니다. 점수가 높은 토큰은 다음 확산 반복에서 디코딩될 가능성이 훨씬 높았습니다.
  3. 동적 토큰 선택: FOCUS는 중요도에 따라 정렬된 토큰 우선순위 큐를 유지합니다. 각 단계에서 다음을 수행합니다:
    • 누적 디코딩 확률이 설정 가능한 임계값을 초과하는 상위 k 토큰을 선택합니다.
    • 확산 커널을 이 부분 집합에만 실행합니다.
    • 제외된 토큰이 다시 사용할 수 있게 되면 큐에 재삽입합니다.
  4. 배치 크기 확장: 활성 토큰 집합이 훨씬 작아지므로 동일한 GPU가 더 많은 실제 배치를 병렬로 처리할 수 있어 전체 처리량이 향상됩니다.
  5. LMDeploy와의 통합: 이 시스템은 기존 추론 엔진을 래핑하며, 몇 가지 API 변경만 필요해 기존 서비스에 적용하기 쉽습니다.

결과 및 발견

지표베이스라인 (LMDeploy)FOCUS속도 향상품질 Δ
Tokens/sec (WikiText)1,2004,2003.5×≈ 0% (BLEU)
Tokens/sec (CommonGen)9503,3003.5×+0.3 BLEU
GPU Utilization68 %92 %
Latency (90‑pctile)210 ms78 ms
  • 처리량: 다섯 가지 다양한 생성 작업에서 FOCUS는 일관되게 토큰‑당‑초당 2.8–3.5× 높은 비율을 제공했습니다.
  • 품질: 표준 자동 평가 지표에서 통계적으로 유의미한 감소가 없었으며, 두 경우에서는 품질이 오히려 향상되었습니다. 이는 모델이 “hard” 토큰에 더 많은 연산을 할당했기 때문으로 보입니다.
  • 확장성: 시스템은 GPU 수에 따라 선형적으로 확장되며, 동적 포커스가 동기화 병목을 초래하지 않음을 확인했습니다.

Practical Implications

  • Cost‑effective serving: 비용 효율적인 서비스: 클라우드 제공업체는 현재 컴퓨팅 예산의 일부만으로 DLLM을 실행할 수 있어, 확산 기반 생성이 챗봇, 코드 어시스턴트, 콘텐츠 제작 서비스에 적용 가능해집니다.
  • Higher request concurrency: 높은 요청 동시성: 효과적인 배치 크기를 늘림으로써 API는 하드웨어를 추가하지 않고도 더 많은 동시 사용자를 처리할 수 있어 트래픽 급증 시 지연 시간 급등을 감소시킵니다.
  • Energy savings: 에너지 절감: 컴퓨팅을 집중함으로써 낭비되는 GPU 사이클을 줄이고, 대규모 AI 배포의 지속 가능성 목표와 일치합니다.
  • Plug‑and‑play adoption: 플러그‑앤‑플레이 채택: FOCUS가 LMDeploy 위에 얇은 래퍼로 구축되었기 때문에 팀은 최소한의 코드 변경으로 기존 모델 체크포인트와 파이프라인을 유지하면서 통합할 수 있습니다.
  • Enabling new use‑cases: 새로운 사용 사례 활성화: 더 빠른 DLLM 추론은 이전에 느린 자동 회귀 모델이 필요했던 실시간 애플리케이션(예: 인터랙티브 스토리텔링, 온‑디바이스 생성)을 가능하게 합니다.

Limitations & Future Work

  • Model‑specific tuning: The importance‑based selection threshold is currently a hyper‑parameter that may need per‑model calibration; a universal setting is not yet proven.
  • Memory overhead: Maintaining priority queues and token metadata adds a modest memory footprint, which could become a bottleneck on memory‑constrained edge devices.
  • Generality to other diffusion architectures: The study focuses on a specific class of DLLMs; extending FOCUS to newer diffusion variants (e.g., latent diffusion for text) remains an open question.
  • Adaptive scheduling research: Future work could explore reinforcement‑learning‑based token selection to further reduce latency and improve quality.

FOCUS demonstrates that smart runtime engineering can bridge the gap between cutting‑edge research models and real‑world production constraints, turning diffusion LLMs from a curiosity into a practical tool for developers.

저자

  • Kaihua Liang
  • Xin Tan
  • An Zhong
  • Hong Xu
  • Marco Canini

논문 정보

  • arXiv ID: 2601.23278v1
  • 분류: cs.LG, cs.AR, cs.CL
  • 출판일: 2026년 1월 30일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] Agnostic 언어 식별 및 생성

최근 language identification 및 generation에 관한 연구들은 이러한 작업을 달성할 수 있는 엄격한 statistical rates를 확립했습니다. 이러한 연구들은 일반적으로 …