[Paper] ManifoldGD：免训练层次流形引导用于基于扩散的数据集蒸馏

发布: 3天前 (2026年2月27日 GMT+8 02:07)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.23295v1

Overview

本文介绍了 ManifoldGD，一种无需训练的技术，利用扩散模型生成超紧凑的合成数据集，同时保留原始大规模集合的知识。该方法通过使用从潜在特征的层次聚类构建的几何感知“流形”来引导扩散过程，生成多样且高保真度的图像，可在下游训练中替代完整数据集。

Training‑free distillation: 利用预训练的扩散模型和 VAE 编码器，省去对任何生成网络的微调。
Hierarchical IPC (Instance Prototype Centroid) construction: 通过对 VAE 潜在向量进行分裂聚类，构建多尺度的中心点子集，捕获粗粒度的类别模式和细粒度的类内变化。
Manifold‑consistent guidance: 在每一步扩散去噪过程中，将指向最近 IPC 的方向投影到潜在流形的局部切空间上，使生成轨迹保持在流形上。
Unified framework: 可与任何现成的扩散模型（如 Stable Diffusion、Denoising Diffusion Probabilistic Models）配合使用，无需额外训练。
State‑of‑the‑art results: 在 Fréchet Inception Distance (FID)、嵌入 L2 距离以及下游分类准确率方面，均优于训练自由和需训练的基线。

特征提取 – 预训练的 VAE 将原始数据集中的每张图像编码为潜在向量。
层次聚类 – 对潜在向量进行递归划分（分裂聚类），生成聚类树。每个叶子聚类的中心点成为 实例原型中心 (IPC)。层次结构产生一组 多尺度 的 IPC：高层节点捕获宽泛的语义模式（例如，“狗 vs. 猫”），而更深的节点捕获细微的差异（例如，不同品种）。
流形构建 – 对于给定的扩散时间步 t，算法在当前潜在估计周围选择一组局部邻域的 IPC。利用这些点，估计低维切空间（例如，通过对邻域进行 PCA）。
引导去噪 – 标准的扩散去噪步骤产生一个指向更高概率区域的 “分数”（梯度）。ManifoldGD 添加一个 模式对齐向量，该向量指向当前潜在向量到最近的 IPC。随后将该向量 投影到切空间，确保更新保持在学习到的流形上。
迭代 – 步骤 3‑4 在每个去噪时间步重复，直至得到干净的图像。最终的图像构成蒸馏后的合成数据集。

整个管道仅在推理阶段运行：在初始预处理之后，不需要对扩散模型、VAE 或聚类算法进行梯度更新。

Source: …

指标	无训练基线	有训练基线	ManifoldGD
FID（CIFAR‑10）	38.2	31.5	27.1
嵌入 L2 距离（真实 ↔ 合成）	0.84	0.71	0.58
分类准确率（使用合成数据集训练 ResNet‑18）	71.3 %	78.9 %	82.4 %

在多个基准（CIFAR‑10、TinyImageNet 以及 ImageNet 子集）上，ManifoldGD 始终优于最强的无训练方法，甚至超越了许多基于训练的蒸馏流水线。

对 VAE 质量的依赖：层次聚类在 VAE 潜在空间上进行；如果编码器训练不佳，可能产生次优的 IPC，从而限制蒸馏质量。
聚类的可扩展性：虽然分裂聚类比穷尽式 k‑means 更节省内存，但为极大规模数据集（例如完整的 ImageNet）构建 IPC 仍会产生不可忽视的预处理时间。
固定的扩散时间表：当前实现假设标准的扩散时间步调度；将指导方法适配到其他调度或加速采样器可能带来进一步的加速。
向非图像模态的扩展：本文聚焦于视觉数据；将流形引导蒸馏应用于音频、文本或多模态数据仍是一个未解的方向。

未来的研究可以探索学习的潜在流形（例如通过图神经网络）、自适应邻域大小，以及 VAE 编码器与 IPC 层次结构的联合优化，以进一步提升保真度并降低预处理开销。