[Paper] ManifoldGD:免训练层次流形引导用于基于扩散的数据集蒸馏

发布: (2026年2月27日 GMT+8 02:07)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.23295v1

Overview

本文介绍了 ManifoldGD,一种无需训练的技术,利用扩散模型生成超紧凑的合成数据集,同时保留原始大规模集合的知识。该方法通过使用从潜在特征的层次聚类构建的几何感知“流形”来引导扩散过程,生成多样且高保真度的图像,可在下游训练中替代完整数据集。

关键贡献

  • Training‑free distillation: 利用预训练的扩散模型和 VAE 编码器,省去对任何生成网络的微调。
  • Hierarchical IPC (Instance Prototype Centroid) construction: 通过对 VAE 潜在向量进行分裂聚类,构建多尺度的中心点子集,捕获粗粒度的类别模式和细粒度的类内变化。
  • Manifold‑consistent guidance: 在每一步扩散去噪过程中,将指向最近 IPC 的方向投影到潜在流形的局部切空间上,使生成轨迹保持在流形上。
  • Unified framework: 可与任何现成的扩散模型(如 Stable Diffusion、Denoising Diffusion Probabilistic Models)配合使用,无需额外训练。
  • State‑of‑the‑art results: 在 Fréchet Inception Distance (FID)、嵌入 L2 距离以及下游分类准确率方面,均优于训练自由和需训练的基线。

方法论

  1. 特征提取 – 预训练的 VAE 将原始数据集中的每张图像编码为潜在向量。
  2. 层次聚类 – 对潜在向量进行递归划分(分裂聚类),生成聚类树。每个叶子聚类的中心点成为 实例原型中心 (IPC)。层次结构产生一组 多尺度 的 IPC:高层节点捕获宽泛的语义模式(例如,“狗 vs. 猫”),而更深的节点捕获细微的差异(例如,不同品种)。
  3. 流形构建 – 对于给定的扩散时间步 t,算法在当前潜在估计周围选择一组局部邻域的 IPC。利用这些点,估计低维切空间(例如,通过对邻域进行 PCA)。
  4. 引导去噪 – 标准的扩散去噪步骤产生一个指向更高概率区域的 “分数”(梯度)。ManifoldGD 添加一个 模式对齐向量,该向量指向当前潜在向量到最近的 IPC。随后将该向量 投影到切空间,确保更新保持在学习到的流形上。
  5. 迭代 – 步骤 3‑4 在每个去噪时间步重复,直至得到干净的图像。最终的图像构成蒸馏后的合成数据集。

整个管道仅在推理阶段运行:在初始预处理之后,不需要对扩散模型、VAE 或聚类算法进行梯度更新。

Source:

结果与发现

指标无训练基线有训练基线ManifoldGD
FID(CIFAR‑10)38.231.527.1
嵌入 L2 距离(真实 ↔ 合成)0.840.710.58
分类准确率(使用合成数据集训练 ResNet‑18)71.3 %78.9 %82.4 %
  • 代表性:层次化的 IPC 捕捉了全局类别结构和细粒度差异,使合成数据更好地映射原始分布。
  • 多样性:切空间投影防止了模式坍缩,保留了类内变化。
  • 图像保真度:视觉检查显示,与之前的基于分数的引导方法相比,纹理更清晰、光照更真实。

在多个基准(CIFAR‑10、TinyImageNet 以及 ImageNet 子集)上,ManifoldGD 始终优于最强的无训练方法,甚至超越了许多基于训练的蒸馏流水线。

实际意义

  • 更快的原型设计:开发者可以用几兆字节的合成图像替代多吉字节的训练集,从而减少数据加载时间和存储成本。
  • 边缘和设备端学习:小型合成数据集使得在设备上微调模型成为可能(例如在智能手机上进行个性化),无需传输完整数据集。
  • 隐私保护的共享:由于蒸馏数据是从潜在流形生成的,而非原始图像,可在降低泄露个人身份信息风险的情况下共享。
  • 快速领域适配:通过在新领域的潜在嵌入上重新计算 IPC,即可瞬间生成紧凑的合成数据集用于迁移学习,避免昂贵的数据收集。
  • 即插即用:该方法适用于任何现成的扩散模型,团队可以将其集成到已有流水线中,而无需训练新的生成模型。

限制与未来工作

  • 对 VAE 质量的依赖:层次聚类在 VAE 潜在空间上进行;如果编码器训练不佳,可能产生次优的 IPC,从而限制蒸馏质量。
  • 聚类的可扩展性:虽然分裂聚类比穷尽式 k‑means 更节省内存,但为极大规模数据集(例如完整的 ImageNet)构建 IPC 仍会产生不可忽视的预处理时间。
  • 固定的扩散时间表:当前实现假设标准的扩散时间步调度;将指导方法适配到其他调度或加速采样器可能带来进一步的加速。
  • 向非图像模态的扩展:本文聚焦于视觉数据;将流形引导蒸馏应用于音频、文本或多模态数据仍是一个未解的方向。

未来的研究可以探索学习的潜在流形(例如通过图神经网络)、自适应邻域大小,以及 VAE 编码器与 IPC 层次结构的联合优化,以进一步提升保真度并降低预处理开销。

作者

  • Ayush Roy
  • Wei‑Yang Alex Lee
  • Rudrasis Chakraborty
  • Vishnu Suresh Lokhande

论文信息

  • arXiv ID: 2602.23295v1
  • 类别: cs.CV, cs.LG
  • 出版日期: 2026年2月26日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »