[Paper] Group Diffusion: 通过解锁跨样本协作提升图像生成

发布: (2025年12月12日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.10954v1

概览

本文提出了 Group Diffusion,这是一种基于扩散的图像生成器的新颖变体,使得在推理过程中多个样本能够相互“对话”。通过在一批图像之间共享注意力图,模型可以协同其去噪步骤,从而显著提升视觉保真度——在 ImageNet‑256×256 上的 FID 最高降低 32 %。该工作为在不重新训练底层模型的情况下提升生成式 AI 开辟了新途径。

关键贡献

  • 跨样本注意力(Cross‑sample attention): 将 transformer‑style 注意力机制从图像内部的 patch 扩展到图像之间的 patch,实现协同去噪。
  • Group Diffusion 框架: 一种即插即用的推理时修改,可与任意扩散 transformer(如 Stable Diffusion、Imagen)配合使用。
  • 尺度分析: 展示了组大小与生成质量之间的单调关系——更大的组能够产生更强的跨样本信号。
  • 定性度量: 提出一种简单的 “跨样本注意力强度” 度量,该度量与 FID 紧密相关,为实践者提供诊断工具。
  • 实证提升: 与基线扩散模型相比,在 ImageNet‑256×256 上实现了最高 32.2 % 的 FID 降低,且无需额外训练数据。

方法论

  1. 基线扩散 transformer: 模型遵循标准的去噪扩散概率模型(DDPM)流程,UNet‑style transformer 在每个时间步为每个图像 patch 预测噪声。
  2. 组的构建: 推理引擎不再处理单张图像,而是将 N 张图像堆叠成一个 “组”。
  3. 共享注意力: 将自注意力层的 query、key、value 张量在组维度上拼接。于是每个 patch 可以关注组中 任意 图像的 patch,而不仅限于自身图像。
  4. 联合去噪: 模型执行常规的逆扩散步骤,但每张图像的噪声预测现在融合了来自同伴的信息。
  5. 尺度与测量: 实验中变化组大小(如 2、4、8、16),并计算提出的跨样本注意力强度度量,显示其与最终 FID 之间的强线性相关性。

该方法 无需重新训练;它纯粹是推理时的改动,能够轻松嵌入现有流水线。

结果与发现

设置FID (ImageNet‑256)相对提升
基线扩散 transformer(单样本)13.8
Group Diffusion,组大小 = 411.9 ‑13 %
Group Diffusion,组大小 = 810.8 ‑22 %
Group Diffusion,组大小 = 169.3 ‑32 %
  • 跨样本注意力强度 随组大小提升而上升,并与 FID 的下降相吻合,验证了该度量捕捉了底层信号。
  • 视觉检查显示纹理更锐利、对象边界更连贯、伪影更少,尤其在包含多个对象的复杂场景中。
  • 该方法在不同的扩散骨干(如 Stable Diffusion v1.4、Imagen‑like 模型)上均有效,表明其适用范围广泛。

实际意义

  • 无需额外训练数据即可提升输出质量: 企业只需将请求批量处理,即可提升现有扩散服务(如图像‑到‑图像编辑、内容创作)的保真度。
  • 成本效益的扩展: 由于提升来源于推理,边际计算成本有限——主要是更大的批量所需的额外显存以及略增的注意力计算。
  • 更好的批处理利用率: 云服务提供商可以将推理作业组织成组,将闲置 GPU 资源转化为用户感知的质量提升。
  • 多模态协作的潜力: 同一原理可扩展至文本‑到‑图像或视频生成,让多个提示或帧共享注意力,从而实现同步叙事或跨帧风格一致性。
  • 诊断工具: 跨样本注意力强度度量可用于监控模型健康或根据硬件约束动态决定最优组大小。

局限性与未来工作

  • 显存开销: 将大量高分辨率图像组合会超出 GPU 显存,需要谨慎选择批量大小或使用梯度检查点等技巧。
  • 收益递减: 在一定组大小(≈16)后提升趋于饱和,表明存在一个最佳规模,而非“越大越好”。
  • 对非 transformer 扩散模型的适用性: 当前设计依赖 transformer 注意力,若要迁移到基于卷积的扩散骨干可能需要额外工程工作。
  • 理论理解不足: 虽然与 FID 的经验相关性强,但为何跨样本注意力能够改善学习到的分布仍缺乏深入分析。

未来研究可探索自适应组构建(例如将语义相似的图像聚在一起)、将该思路扩展至视频扩散,或在训练阶段引入跨样本信号以获取更大提升。

作者

  • Sicheng Mo
  • Thao Nguyen
  • Richard Zhang
  • Nick Kolkin
  • Siddharth Srinivasan Iyer
  • Eli Shechtman
  • Krishna Kumar Singh
  • Yong Jae Lee
  • Bolei Zhou
  • Yuheng Li

论文信息

  • arXiv ID: 2512.10954v1
  • 分类: cs.CV
  • 发表时间: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »