不是 Z-Image-Base!而是 Z-Image-Omni-Base?

发布: (2025年12月14日 GMT+8 13:35)
4 min read
原文: Dev.to

Source: Dev.to

概览

阿里巴巴的通义‑MAI团队发布了系列 6 B 参数模型,统称 Z‑Image,以写实质量和高效推理著称。
近期,官方 Z‑Image 博客宣布原来的 Z‑Image‑Base 已更名为 Z‑Image‑Omni‑Base(ModelScope 与 Hugging Face 尚未同步此更改)。此更名标志着向 omni 预训练的战略转型,使模型能够统一处理图像生成与编辑任务,避免了任务专用模型常见的性能惩罚。

架构

Z‑Image 系列的核心是 可扩展单流扩散 Transformer (S3‑DiT)。所有变体共享统一的输入流,处理:

  • 文本提示
  • 视觉语义标记
  • 图像 VAE 标记

单流设计支持中英双语文本渲染和指令遵循。根据技术报告(arXiv: 2511.22699,2025 年 12 月 1 日发布),omni 预训练统一了生成与编辑流水线,消除了双流架构的冗余。

最近进展

  • Z‑Image‑Turbo – 于 2025 年 11 月 26 日发布;权重已在 Hugging Face 与 ModelScope 开源;提供在线 demo spaces。
  • Z‑Image‑Omni‑BaseZ‑Image‑Edit – 权重标记为 “即将推出”;11 月后 GitHub 未有更新,可能仍在进行 omni 功能优化。

用户反馈(如 Reddit 讨论)指出 Turbo 在 H800 GPU 上的亚秒推理(8 步推理,CFG = 1)。然而 Omni‑Base 的统一能力因以下复杂任务受到赞誉:

  • 生成多样化图像(食材驱动的菜品、数学图表)
  • 无需切换模型的自然语言编辑

更名与对比

模型参数量架构预训练状态
Z‑Image‑Turbo6 BS3‑DiT(单流)侧重生成已发布
Z‑Image‑Omni‑Base6 BS3‑DiT(单流)Omni(生成 + 编辑)权重待发布
Z‑Image‑Edit6 BS3‑DiT(单流)侧重编辑权重待发布
Qwen‑Image20 B双流生成 + 编辑(分离)已发布

Omni‑Base 转型的关键点

  • Omni 预训练 实现了生成与编辑任务的无缝切换。
  • 支持在单一框架内进行统一微调(如 LoRA),无需分别训练流水线。
  • 在消费级硬件(如 RTX 3090)上可使用 Q8_0 量化运行。
  • 提供边缘案例能力,例如生成裸露内容(需 LoRA 解锁)。

相较于更大的模型如 Qwen‑Image(20 B),Z‑Image 系列凭借 Decoupled‑DMDDMDR 算法,在保持竞争力的细节和高频渲染的同时,实现了更高的参数效率。

社区反馈

  • Turbo:因亚秒级推理和部署简便(支持 stable-diffusion.cpp 的 4 GB VRAM)而受到好评。
  • Omni‑Base:因在复杂场景下的多功能性受到重视,尽管权重延迟发布引发了对进一步优化的猜测。
  • 持续的贡献包括与 stable-diffusion.cpp 的集成、关于潜在视频扩展的讨论以及基于 LoRA 的增强。

结论

Z‑Image‑Base 更名为 Z‑Image‑Omni‑Base 体现了行业向统一、任务无关模型的更大趋势。通过将生成与编辑合并到单一预训练范式,Z‑Image 系列提供了:

  • 对开发者更大的灵活性
  • 减少对多个专用变体的需求
  • 在中端硬件上的高效部署

Turbo 已全面发布并可直接使用,Omni‑Base 与 Edit 预计将在优化完成后陆续推出。社区保持活跃,持续贡献集成实现并探索未来扩展方向。

Back to Blog

相关文章

阅读更多 »

纳米香蕉 2

Nano Banana 2 - 4K AI 图像生成平台 ## 概述 ## ## 核心功能 ## ### 4K 质量输出 原生 2K 渲染并通过 4K upscaling 提升 专业级图像…