[Paper] 在流形上学习：利用表示编码器解锁标准 Diffusion Transformers

发布: 2天前 (2026年2月11日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.10099v1

概述

论文 “Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders” 阐明了传统扩散‑Transformer 模型在直接从高级表征编码器（如 CLIP、DINO）生成数据时为何会遇到困难。作者指出，问题并非模型容量不足，而是欧氏扩散动力学与编码器特征所在的超球面流形之间存在 几何不匹配。通过重新设计扩散过程以遵循底层黎曼几何，他们使得一个标准的 131 M 参数 Diffusion Transformer（DiT‑B）能够成功训练，并达到最先进的图像合成质量。

关键贡献

识别几何干扰: 证明欧几里得流匹配（Euclidean flow‑matching）会迫使概率质量穿过编码器超球面特征空间的低密度内部，导致训练崩溃。
黎曼流匹配与Jacobi正则化 (RJF): 引入一种遵循特征流形测地线并补偿曲率引起误差传播的扩散公式。
无需宽度扩展: 表明标准 DiT‑B 架构（131 M 参数）在不使用此前被认为必需的宽度增加技巧的情况下即可收敛。
实证验证: 在 ImageNet‑256 上实现 3.37 的 FID，突破了先前扩散‑Transformer 方法会发散的局限。
开源发布: 提供干净的 PyTorch 实现（https://github.com/amandpkr/RJF），便于可重复性研究和后续工作。

方法论

Problem Setup – 作者从一个 representation encoder 开始，该编码器将图像映射到高维超球面上的点（例如，归一化的 CLIP embeddings）。传统的扩散模型定义了一个 Euclidean stochastic differential equation (SDE)，在环境空间中在噪声和数据之间进行插值。
Geometric Analysis – 通过可视化编码器特征的密度，他们观察到大部分质量位于球面表面，而 Euclidean diffusion trajectory 大部分时间位于球体内部，那里没有真实数据。这种 “geometric interference” 导致梯度信号差，训练失败。
Riemannian Flow Matching – 与 Euclidean SDE 不同，他们在流形上构建了一个 Riemannian flow：
- 扩散路径遵循 geodesics（球面上的最短路径）。
- 速度场通过 Riemannian optimal transport 定义，确保概率质量在整个训练过程中保持在流形上。
Jacobi Regularization – 曲率在沿 geodesics 积分时会放大小误差。作者借用了微分几何中的 Jacobi equation 来正则化学习到的向量场，使流在曲率引起的漂移下保持稳定。
Training Pipeline – RJF loss 替代了 vanilla Diffusion Transformer (DiT‑B) 中的标准 flow‑matching loss。无需架构更改、额外层或宽度扩展。

结果与发现

模型（Params）	训练设置	FID（ImageNet‑256）	备注
DiT‑B (131 M) + Euclidean Flow	标准	未收敛	由于几何干扰导致崩溃
DiT‑B (131 M) + RJF (proposed)	相同超参数	3.37	匹配或超过先前宽度扩展基线
DiT‑L (large, 300 M) + Euclidean Flow (baseline)	更宽的模型	~3.5	需要 >2× 参数才能获得可比质量

关键要点

几何对齐 是主要瓶颈，而非原始容量。
RJF 在相同模型规模下恢复了稳定训练，计算和内存消耗约比宽度扩展的替代方案减半。
定性样本显示纹理更锐利、伪影更少，尤其是在编码器流形曲率较高的区域。

实际意义

Cost‑Effective High‑Fidelity Generation: 开发者现在可以在普通 GPU 上部署 diffusion‑transformer 流水线，而无需增大模型规模，使大规模图像合成更具成本效益。
Plug‑and‑Play with Existing Encoders: RJF 可与任何归一化表示编码器（CLIP、DINO、SimCLR）配合使用，打开了基于语义嵌入的条件生成的大门，无需重新训练编码器。
Better Integration in Multi‑Modal Systems: 由于生成过程遵循编码器的几何结构，下游任务（例如文本到图像、风格迁移）使用相同嵌入时会更加一致。
Reduced Training Instability: 团队可以避免在扩大宽度或添加临时技巧的反复试验；RJF 损失是对标准 diffusion 损失的直接替换。
Potential for Other Manifolds: 同样的黎曼流匹配思路可以适用于图嵌入、双曲空间或任何已知几何结构的潜在空间，扩大其在视觉之外的影响。

限制与未来工作

流形假设: RJF 假设编码器的输出位于一个行为良好的超球面上。产生未归一化或高度各向异性嵌入的编码器可能需要额外的预处理。
Jacobi 正则化的计算开销: 虽然模型规模保持不变，计算曲率感知正则化会给训练时间增加一个适度的常数因子。
对超高分辨率的可扩展性: 实验仅限于 256×256 图像；扩展到 1024×1024 或视频生成可能会出现新的几何挑战。
更广泛的流形类型: 未来工作可以探索自适应流形学习（与扩散过程共同学习度量），或将 RJF 应用于非球面流形，例如用于多模态嵌入的乘积流形。

如果你有兴趣自行尝试 RJF，作者在 GitHub 上提供了可直接运行的实现和预训练检查点。该方法为现有的扩散‑Transformer 流水线提供了一个简洁的、几何感知的升级，将理论洞见转化为实际的性能提升。

作者

Amandeep Kumar
Vishal M. Patel

论文信息

arXiv ID: 2602.10099v1
分类: cs.LG, cs.CV
发布: 2026年2月10日
PDF: 下载 PDF

[Paper] 在流形上学习：利用表示编码器解锁标准 Diffusion Transformers

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] UniT：统一多模态链式思考测试时扩展

[Paper] MonarchRT：高效注意力用于实时视频生成

[Paper] 面向 On-Policy SFT：分布判别理论及其在 LLM 训练中的应用

[Paper] GENIUS：生成式流体智力评估套件