Z-Image-Base가 아니다! Z-Image-Omni-Base?

발행: (2025년 12월 14일 오후 02:35 GMT+9)
6 min read
원문: Dev.to

Source: Dev.to

개요

Alibaba의 Tongyi‑MAI 팀은 Z‑Image 브랜드 아래 6 B 파라미터 모델 6종을 출시했으며, 포토리얼리스틱 품질과 효율적인 추론으로 알려져 있습니다.
최근 공식 Z‑Image 블로그에서 기존 Z‑Image‑BaseZ‑Image‑Omni‑Base로 이름이 변경되었다고 발표했습니다 (ModelScope와 Hugging Face는 아직 반영되지 않음). 이번 이름 변경은 omni 사전학습 전략으로의 전환을 의미하며, 모델이 이미지 생성과 편집을 일관되게 처리하도록 하면서, 작업‑특화 모델에서 흔히 발생하는 성능 저하를 없애줍니다.

아키텍처

Z‑Image 시리즈의 핵심은 Scalable Single‑Stream Diffusion Transformer (S3‑DiT) 입니다. 모든 변형은 다음을 처리하는 단일 입력 스트림을 공유합니다:

  • 텍스트 프롬프트
  • 시각 의미 토큰
  • 이미지 VAE 토큰

이 단일 스트림 설계는 다국어(중국어·영어) 텍스트 렌더링과 명령 수행을 지원합니다. 기술 보고서(arXiv: 2511.22699, 2025년 12월 1일 발표)에 따르면, omni 사전학습은 생성 및 편집 파이프라인을 통합해 이중 스트림 아키텍처의 중복성을 제거합니다.

최근 개발

  • Z‑Image‑Turbo – 2025년 11월 26일 출시; 가중치가 Hugging Face와 ModelScope에 오픈소스화; 온라인 데모 스페이스 제공.
  • Z‑Image‑Omni‑BaseZ‑Image‑Edit – 가중치가 “곧 제공”으로 표시; 11월 이후 GitHub 업데이트 없음, 아마도 omni 기능 최적화 진행 중일 가능성.

Reddit 등 사용자 피드백에서는 Turbo가 H800 GPU에서 서브 초 단위 추론(8‑step inference, CFG = 1)을 보여줍니다. 그러나 Omni‑Base의 통합된 능력은 다음과 같은 복합 작업에서 호평을 받고 있습니다:

  • 다양한 이미지 생성(재료 기반 요리, 수학 차트)
  • 모델 전환 없이 자연어 편집

이름 변경 및 비교

모델파라미터아키텍처사전학습상태
Z‑Image‑Turbo6 BS3‑DiT (single‑stream)Generation‑focusedAvailable
Z‑Image‑Omni‑Base6 BS3‑DiT (single‑stream)Omni (generation + editing)Weights pending
Z‑Image‑Edit6 BS3‑DiT (single‑stream)Editing‑focusedWeights pending
Qwen‑Image20 BDual‑streamGeneration + editing (separate)Available

Omni‑Base 전환의 핵심 포인트

  • Omni 사전학습은 생성과 편집 작업 간의 원활한 전환을 가능하게 합니다.
  • 단일 프레임워크 내에서 통합 파인튜닝(예: LoRA)을 지원해 별도 학습 파이프라인이 필요 없습니다.
  • Q8_0 양자화 시 RTX 3090 등 소비자 하드웨어에서도 실행 가능.
  • 누드 이미지 생성 등 엣지 케이스 기능 제공(LoRA 잠금 해제 필요).

Qwen‑Image(20 B)와 같은 대형 모델에 비해 Z‑Image 시리즈는 Decoupled‑DMDDMDR 알고리즘 덕분에 파라미터 효율성이 높으며, 디테일과 고주파 렌더링에서도 경쟁력을 유지합니다.

커뮤니티 피드백

  • Turbo: 서브 초 단위 추론과 배포 용이성(4 GB VRAM에서도 stable-diffusion.cpp 지원)으로 호평.
  • Omni‑Base: 복합 시나리오에서의 다재다능함이 가치 있게 평가되지만, 가중치 공개 지연으로 추가 최적화에 대한 추측이 제기됨.
  • 현재 진행 중인 기여로는 stable-diffusion.cpp와의 통합, 비디오 확장 가능성 논의, LoRA 기반 개선 등이 포함됩니다.

결론

Z‑Image‑BaseZ‑Image‑Omni‑Base로 이름을 바꾼 것은 통합된, 작업에 구애받지 않는 모델을 향한 산업 전반의 흐름을 반영합니다. 생성과 편집을 하나의 사전학습 패러다임으로 통합함으로써 Z‑Image 시리즈는 다음을 제공합니다:

  • 개발자를 위한 높은 유연성
  • 다수의 특화 모델 필요성 감소
  • 중급 하드웨어에서의 효율적인 배포

Turbo는 완전히 출시되어 바로 사용할 수 있으며, Omni‑Base와 Edit은 최적화가 완료되는 대로 출시될 예정입니다. 커뮤니티는 활발히 활동하며 통합 작업과 향후 확장 가능성을 탐구하고 있습니다.

Back to Blog

관련 글

더 보기 »

나노 바나나 2

Nano Banana 2 - 4K AI 이미지 생성 플랫폼 ## 개요 ## 핵심 기능 ### 4K 품질 출력 네이티브 2K 렌더링에 4K 업스케일링 적용 전문가 수준의 이미지…