[Paper] 层叠表示自编码器用于高效扩散

发布: (2026年2月5日 GMT+8 02:57)
7 min read
原文: arXiv

Source: arXiv - 2602.04873v1

Overview

一篇由 Ramón Calvo‑González 和 François Fleuret 撰写的新论文展示了如何通过压缩最先进自监督编码器(例如 DINOv2)产生的丰富 patch‑level 特征,显著提升 diffusion‑based image generation 的效率。他们的 FlatDINO 变分自编码器将密集的 2‑D 视觉 token 网格 压缩成仅包含 32 个连续嵌入的 短 1‑D 序列,在大幅降低 diffusion model 计算预算的同时,仍能保持生成质量。

关键贡献

  • FlatDINO VAE:一个轻量级变分自编码器,将 DINOv2 patch 嵌入 (≈ 256 × 256 × dim) 转换为 32‑token 潜在向量,实现序列长度 的压缩和总体维度约 48× 的降低。
  • 高效扩散训练:证明在 FlatDINO 潜在空间上训练的 DiT‑XL 扩散模型在 ImageNet‑256 上达到 1.80 的 gFID,匹配使用原始 DINOv2 特征进行扩散的质量。
  • 计算节省:与使用未压缩的 DINOv2 特征相比,前向传播每次可减少 FLOPs,训练步骤每次可减少 4.5× FLOPs。
  • 概念验证流水线:将自监督编码器 → FlatDINO → 扩散模型集成,为已经依赖 DINO 风格表示的开发者提供实用方案。

方法论

  1. 特征提取
    图像首先通过预训练的 DINOv2 编码器,产生密集的补丁嵌入网格(例如,16 × 16 个补丁,每个为 1024 维向量)。

  2. 变分压缩 (FlatDINO)

    • 一个 卷积编码器 将 2‑D 网格聚合为紧凑的潜在分布(均值 + 对数方差)。
    • 从该分布采样得到 固定长度的 1‑D 序列,包含 32 个 token(每个 token 约 256 维)。
    • 对称的 解码器 重建原始补丁网格,VAE 使用标准的重建损失加 KL‑散度正则进行训练。
  3. 在压缩潜在上进行扩散
    将 32‑token 序列输入 DiT‑XL(基于 Transformer 的扩散模型)。由于序列短,注意力和前馈层的计算成本大幅降低。

  4. 引导与采样
    在采样过程中使用标准的 classifier‑free 引导,以在保真度和多样性之间进行权衡,方式与传统扩散管道完全相同。

结果与发现

指标原始 DINOv2 上的扩散FlatDINO 上的扩散(本工作)
gFID (ImageNet‑256)~1.7‑1.9(基线)1.80
序列长度256 (16 × 16)32
每次前向传播的 FLOPs1×(基线)≈ 1/8
每个训练步骤的 FLOPs1×(基线)≈ 1/4.5

压缩后的表示保留了足够的语义细节,使扩散模型能够合成高质量图像,同时减少的 token 数量大幅降低了内存使用和计算量。定性样本(如论文所示)在视觉上与从完整 DINOv2 网格生成的样本无差别。

实际意义

  • 成本效益扩展:由于 4‑5 倍的训练加速,公司可以在相同的硬件预算下训练更大的扩散模型(或进行更多的训练轮次)。
  • 边缘与移动部署:32‑token 的潜在表示非常小,能够高效存储或传输,为带宽或存储受限的设备端生成打开了可能性。
  • 混合流水线:现有基于 DINOv2 的视觉系统(如检索、分割)可以复用相同的编码器,然后在生成任务中切换到 FlatDINO,而无需重新训练编码器。
  • 降低内存占用:更短的序列意味着 GPU 内存消耗更低,能够使用更大的批量大小或在研究和原型开发中使用消费级 GPU。
  • 即插即用:VAE 是单独训练的,开发者可以替换为其他自监督编码器(如 MAE、CLIP),仍然获得类似的压缩收益。

局限性与未来工作

  • 初步结果:作者指出实验仍处于早期阶段;需要更广泛的基准测试(例如更高分辨率、其他数据集)来确认其普适性。
  • 重建权衡:压缩到 32 个 token 不可避免地会丢失一些细粒度细节;对于纹理复杂的极端情况可能会受影响。
  • 编码器依赖性:FlatDINO 针对 DINOv2 特征进行调优;将其适配到其他编码器可能需要结构上的调整。
  • 引导敏感性:最佳的无分类器引导权重可能与使用原始特征时不同,需要额外的超参数调优。
  • 未来方向:作者计划探索自适应 token 数量、层次化 VAE,以及编码器‑解码器‑扩散的联合训练,以实现端到端优化。

底线:通过在自监督的 patch 嵌入之上“层叠”一个 VAE,FlatDINO 提供了紧凑且可直接用于扩散的表示,显著降低计算量而不牺牲图像质量——这是朝着让高保真生成模型对普通开发者更易获取的激动人心的一步。

作者

  • Ramón Calvo‑González
  • François Fleuret

论文信息

  • arXiv ID: 2602.04873v1
  • 分类: cs.CV
  • 出版日期: February 4, 2026
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 强化注意力学习

通过强化学习(RL)进行后训练已显著提升了大语言模型(LLMs)的推理能力,尤其是在测试时的规模扩展方面。然而,扩展…