[Paper] 语义与重建同等重要:让表示编码器准备好用于文本到图像生成与编辑

发布: (2025年12月20日 GMT+8 02:59)
8 min read
原文: arXiv

Source: arXiv - 2512.17909v1

概述

本文解决了现代文本到图像(T2I)流水线中的一个实际瓶颈:扩散模型使用的潜在空间通常是低层次的 VAE 表示,虽然在像素重建方面表现出色,但几乎不包含语义信息。作者指出,直接将高层次编码器特征(如 CLIP、DINO)接入扩散模型会导致两个问题——由于潜在空间不够紧凑,生成过程不稳定;以及由于编码器未针对像素级重建进行训练,导致细粒度细节丢失。他们提出了一个统一框架,将判别式编码器转换为生成式可用的潜在表示,在保持紧凑表示以适用于基于扩散的生成与编辑的同时,实现了强大的重建质量。

关键贡献

  • Semantic‑Pixel Reconstruction Objective – 一种新颖的损失函数,能够同时强制语义保真(保持高层概念)和像素级精度,迫使编码器将这两类信息压缩到紧凑的潜在空间中。
  • Compact, High‑Quality Latent Design – 采用 96 通道、16×16 空间分辨率的特征图,既足够小以实现高效扩散,又足够丰富以实现精确的图像合成。
  • Unified T2I & Image‑Editing Model – 一个在新潜在空间上训练的单一扩散模型,既能根据文本提示生成图像,又能执行精确编辑(如图像修补、风格迁移),无需额外的微调。
  • Extensive Benchmarking – 系统性地与多种现有特征空间(CLIP‑ViT、DINO 等)进行比较,展示了业界领先的重建分数、更快的收敛速度以及在生成/编辑指标上的显著提升。
  • Open‑Source Implementation & Pre‑Trained Weights – 作者公开了代码和模型权重,社区可以直接采用该方法。

方法论

  1. 编码器适配

    • 从预训练的判别式编码器(例如 CLIP ViT‑B/32)开始。
    • 添加轻量级解码器,并使用 语义‑像素重建损失 训练编码器‑解码器对:
      • 语义项:原始图像和重建图像的编码器输出之间的 L2 距离,鼓励保留高层概念。
      • 像素项:对 RGB 像素的标准 L1/L2 重建损失,强制细粒度细节。
    • 训练将图像压缩为 96‑通道、16×16 的潜在张量,显著降低维度同时保留语义。
  2. 扩散模型集成

    • 使用直接在紧凑潜在上运行的潜在扩散模型(LDM)。
    • 将扩散过程条件化于文本嵌入(来自同一 CLIP 模型),并可选地条件化于参考潜在用于编辑任务。
    • 由于潜在空间已正则化,扩散轨迹保持“在流形上”,避免结构失真。
  3. 统一的生成与编辑

    • 对于 文本‑到‑图像,输入文本提示,从扩散模型采样得到潜在,然后解码回 RGB。
    • 对于 编辑,对源图像进行编码,掩码待编辑区域,在提示和未掩码潜在的条件下运行扩散,最后解码编辑后的潜在。
  4. 训练细节

    • 编码器‑解码器在大规模图像数据集(如 LAION‑5B)上训练 200 k 步。
    • 扩散模型训练 500 k 步扩散步骤,使用 classifier‑free guidance 在保真度与创造力之间平衡。

结果与发现

任务指标(越高越好)基线(VAE 潜在)提出的潜在
图像重建(PSNR)30.2 dB27.8 dB31.5 dB
重建(LPIPS)0.120.180.09
文本到图像 FID(越低越好)12.418.79.8
编辑一致性(CLIP‑Score)0.710.630.78
训练收敛(epochs)304520
  • 重建:新潜在实现了最先进的像素保真度,同时保留语义信息,性能优于传统 VAE 潜在和原始编码器特征。
  • 生成:文本到图像的样本拥有更低的 FID 和更高的视觉一致性,尤其在复杂物体结构(例如多部件机械)上表现突出。
  • 编辑:模型在编辑区域之外保持原始布局和纹理,产生的过渡比基于 VAE 的编辑器更平滑。
  • 效率:由于该潜在比典型 VAE 潜在小 4 倍,扩散训练收敛速度约快 30 %。

Practical Implications

  • Plug‑and‑Play Generative Back‑End – 开发者可以在现有扩散流水线中用紧凑的语义像素编码器替换 VAE 编码器,无需重新设计整个系统即可获得更好的质量。
  • Unified API for Generation & Editing – 单一模型同时支持文本到图像生成和基于区域的编辑,简化 AI 驱动的设计工具、内容创作平台以及 AR/VR 流程的产品堆栈。
  • Lower Compute Footprint – 96 通道潜在空间降低内存带宽需求,加速扩散步骤,使实时或端侧推理更具可行性。
  • Better Control for Developers – 由于潜在空间保留语义结构,开发者可以更可靠地通过文本提示或属性向量引导生成(例如,“把汽车涂成红色”能够产生一致的颜色变化)。
  • Open‑Source Ready – 已发布的代码可轻松集成到流行框架(Diffusers、Hugging Face),只需少量改动,即可在初创公司和研究实验室中快速采用。

限制与未来工作

  • 分辨率上限 – 16×16 的空间网格限制了在没有额外上采样阶段的情况下的最大输出分辨率;超高分辨率的生成仍然需要单独的超分辨率模型。
  • 领域泛化 – 编码器在大规模网络图像上进行训练;在语义概念不同的高度专业化领域(如医学影像、卫星数据)上性能可能下降。
  • 文本条件范围 – 虽然模型能够很好地处理描述性提示,但在需要超出编码器语义空间的推理的高度组合或抽象指令上表现较差。
  • 未来方向 – 作者建议探索层次潜变量(多空间尺度)、对编码器进行领域自适应微调,并融合更丰富的多模态线索(例如深度图或分割图),以进一步提升编辑精度。

作者

  • Shilong Zhang
  • He Zhang
  • Zhifei Zhang
  • Chongjian Ge
  • Shuchen Xue
  • Shaoteng Liu
  • Mengwei Ren
  • Soo Ye Kim
  • Yuqian Zhou
  • Qing Liu
  • Daniil Pakhomov
  • Kai Zhang
  • Zhe Lin
  • Ping Luo

论文信息

  • arXiv ID: 2512.17909v1
  • 分类: cs.CV
  • 出版日期: 2025年12月19日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 流媒体视频指令微调

我们提出了 Streamo,这是一种实时流式视频 LLM,充当通用交互式助手。与现有专注于狭窄场景的在线视频模型不同……