[Paper] 语义与重建同等重要：让表示编码器准备好用于文本到图像生成与编辑

发布: 1个月前 (2025年12月20日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.17909v1

概述

本文解决了现代文本到图像（T2I）流水线中的一个实际瓶颈：扩散模型使用的潜在空间通常是低层次的 VAE 表示，虽然在像素重建方面表现出色，但几乎不包含语义信息。作者指出，直接将高层次编码器特征（如 CLIP、DINO）接入扩散模型会导致两个问题——由于潜在空间不够紧凑，生成过程不稳定；以及由于编码器未针对像素级重建进行训练，导致细粒度细节丢失。他们提出了一个统一框架，将判别式编码器转换为生成式可用的潜在表示，在保持紧凑表示以适用于基于扩散的生成与编辑的同时，实现了强大的重建质量。

关键贡献

Semantic‑Pixel Reconstruction Objective – 一种新颖的损失函数，能够同时强制语义保真（保持高层概念）和像素级精度，迫使编码器将这两类信息压缩到紧凑的潜在空间中。
Compact, High‑Quality Latent Design – 采用 96 通道、16×16 空间分辨率的特征图，既足够小以实现高效扩散，又足够丰富以实现精确的图像合成。
Unified T2I & Image‑Editing Model – 一个在新潜在空间上训练的单一扩散模型，既能根据文本提示生成图像，又能执行精确编辑（如图像修补、风格迁移），无需额外的微调。
Extensive Benchmarking – 系统性地与多种现有特征空间（CLIP‑ViT、DINO 等）进行比较，展示了业界领先的重建分数、更快的收敛速度以及在生成/编辑指标上的显著提升。
Open‑Source Implementation & Pre‑Trained Weights – 作者公开了代码和模型权重，社区可以直接采用该方法。

方法论

编码器适配
- 从预训练的判别式编码器（例如 CLIP ViT‑B/32）开始。
- 添加轻量级解码器，并使用 语义‑像素重建损失 训练编码器‑解码器对：
  - 语义项：原始图像和重建图像的编码器输出之间的 L2 距离，鼓励保留高层概念。
  - 像素项：对 RGB 像素的标准 L1/L2 重建损失，强制细粒度细节。
- 训练将图像压缩为 96‑通道、16×16 的潜在张量，显著降低维度同时保留语义。
扩散模型集成
- 使用直接在紧凑潜在上运行的潜在扩散模型（LDM）。
- 将扩散过程条件化于文本嵌入（来自同一 CLIP 模型），并可选地条件化于参考潜在用于编辑任务。
- 由于潜在空间已正则化，扩散轨迹保持“在流形上”，避免结构失真。
统一的生成与编辑
- 对于 文本‑到‑图像，输入文本提示，从扩散模型采样得到潜在，然后解码回 RGB。
- 对于编辑，对源图像进行编码，掩码待编辑区域，在提示和未掩码潜在的条件下运行扩散，最后解码编辑后的潜在。
训练细节
- 编码器‑解码器在大规模图像数据集（如 LAION‑5B）上训练 200 k 步。
- 扩散模型训练 500 k 步扩散步骤，使用 classifier‑free guidance 在保真度与创造力之间平衡。

结果与发现

任务	指标（越高越好）	基线（VAE 潜在）	提出的潜在
图像重建（PSNR）	30.2 dB	27.8 dB	31.5 dB
重建（LPIPS）	0.12	0.18	0.09
文本到图像 FID（越低越好）	12.4	18.7	9.8
编辑一致性（CLIP‑Score）	0.71	0.63	0.78
训练收敛（epochs）	30	45	20

重建：新潜在实现了最先进的像素保真度，同时保留语义信息，性能优于传统 VAE 潜在和原始编码器特征。
生成：文本到图像的样本拥有更低的 FID 和更高的视觉一致性，尤其在复杂物体结构（例如多部件机械）上表现突出。
编辑：模型在编辑区域之外保持原始布局和纹理，产生的过渡比基于 VAE 的编辑器更平滑。
效率：由于该潜在比典型 VAE 潜在小 4 倍，扩散训练收敛速度约快 30 %。

Practical Implications

Plug‑and‑Play Generative Back‑End – 开发者可以在现有扩散流水线中用紧凑的语义像素编码器替换 VAE 编码器，无需重新设计整个系统即可获得更好的质量。
Unified API for Generation & Editing – 单一模型同时支持文本到图像生成和基于区域的编辑，简化 AI 驱动的设计工具、内容创作平台以及 AR/VR 流程的产品堆栈。
Lower Compute Footprint – 96 通道潜在空间降低内存带宽需求，加速扩散步骤，使实时或端侧推理更具可行性。
Better Control for Developers – 由于潜在空间保留语义结构，开发者可以更可靠地通过文本提示或属性向量引导生成（例如，“把汽车涂成红色”能够产生一致的颜色变化）。
Open‑Source Ready – 已发布的代码可轻松集成到流行框架（Diffusers、Hugging Face），只需少量改动，即可在初创公司和研究实验室中快速采用。

限制与未来工作

分辨率上限 – 16×16 的空间网格限制了在没有额外上采样阶段的情况下的最大输出分辨率；超高分辨率的生成仍然需要单独的超分辨率模型。
领域泛化 – 编码器在大规模网络图像上进行训练；在语义概念不同的高度专业化领域（如医学影像、卫星数据）上性能可能下降。
文本条件范围 – 虽然模型能够很好地处理描述性提示，但在需要超出编码器语义空间的推理的高度组合或抽象指令上表现较差。
未来方向 – 作者建议探索层次潜变量（多空间尺度）、对编码器进行领域自适应微调，并融合更丰富的多模态线索（例如深度图或分割图），以进一步提升编辑精度。

作者

Shilong Zhang
He Zhang
Zhifei Zhang
Chongjian Ge
Shuchen Xue
Shaoteng Liu
Mengwei Ren
Soo Ye Kim
Yuqian Zhou
Qing Liu
Daniil Pakhomov
Kai Zhang
Zhe Lin
Ping Luo

论文信息

arXiv ID: 2512.17909v1
分类: cs.CV
出版日期: 2025年12月19日
PDF: 下载 PDF

[Paper] 语义与重建同等重要：让表示编码器准备好用于文本到图像生成与编辑

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 灵巧的世界模型

[Paper] 开放基础模型中视觉的对抗鲁棒性

[论文] 用于多智能体交互序列建模的 Diffusion Forcing