[Paper] 超越外部指导:释放扩散Transformer内部的语义丰富性以提升训练
发布: (2026年1月13日 GMT+8 01:52)
6 min read
原文: arXiv
Source: arXiv - 2601.07773v1
概述
本文介绍了 Self‑Transcendence,一种用于扩散变换器(DiTs)的训练配方,它消除了对任何外部预训练网络(例如 DINO)的需求,同时仍实现了显著更快的收敛速度和更高的图像生成质量。通过让模型在精心分阶段的内部特征监督下“自我教学”,作者展示了 DiTs 可以达到甚至超越依赖外部语义指导的先前方法的性能。
关键贡献
- Self‑Transcendence framework – 仅使用 DiT 自身的潜在特征作为监督的两阶段训练流水线。
- Shallow‑layer focus – 发现收敛缓慢主要是由于早期 transformer 块的表征学习不足所致。
- Latent‑VAE alignment – 一个短暂的热身阶段,将浅层 DiT 特征对齐到预训练 VAE 的潜在空间,提供强语义锚点。
- Classifier‑free guidance on intermediate features – 在不增加额外模型的情况下提升判别能力和语义丰富度。
- Empirical superiority – 在标准扩散基准上表现与 REPA(之前的最先进外部引导方法)相匹配或超越,同时使用 零外部参数。
- Broad applicability – 适用于不同的 DiT 主干,并可扩展到其他基于扩散的生成任务(例如,文本到图像、视频)。
方法论
-
热身阶段(≈40 个 epoch)
- DiT 正常训练,但额外的损失将 浅层 Transformer 块的输出与扩散模型的 VAE 编码器产生的潜在向量对齐。
- 这迫使早期层继承 VAE 已经学习到的语义结构。
-
引导阶段
- 热身后,模型继续训练,使用施加在 中间 Transformer 特征上的 无分类器引导 损失。
- 引导项鼓励这些特征更具判别性(即更好地区分不同的图像概念),同时仍然由相同的扩散过程生成。
-
自监督循环
- 经过丰富的中间特征现在语义丰富,成为第二次 DiT 训练的 目标。
- 不需要外部网络;模型仅尝试重现其自身高质量的内部表征。
整个流水线实现简单(只需少量额外的损失项),并且相较于标准 DiT 训练几乎没有额外开销。
结果与发现
| 指标 | REPA(外部 DINO) | Self‑Transcendence(无外部) |
|---|---|---|
| FID(CIFAR‑10) | 2.85 | 2.71 |
| 达到 FID 3.0 所需的训练轮数 | ~120 | ≈70 |
| 样本多样性 (IS) | 9.1 | 9.3 |
| 参数数量(额外) | +~30 M(DINO) | 0 |
- 更快的收敛:将达到目标质量所需的训练轮数减少约 40 %。
- 更高的最终质量:在多个基准(CIFAR‑10、ImageNet‑64)上,生成的图像的 FID 更低,Inception Score 更高,优于 REPA。
- 无外部依赖:训练流水线使用与普通 DiT 相同的硬件资源,简化了可复现性和部署。
实际意义
- 简化的流水线 – 团队现在可以在不引入大型外部视觉模型的情况下训练高性能的扩散 Transformer,降低代码库复杂度和许可问题。
- 资源高效的训练 – 更快的收敛意味着更低的 GPU 小时成本,使扩散模型研究对初创公司和小型实验室更易获得。
- 更易的模型扩展 – 由于该方法适用于各种骨干网络,开发者可以尝试更大的 DiT(例如 DiT‑XL),而无需担心匹配外部特征提取器。
- 下游任务的潜力 – 同样的自监督思路可以迁移到条件扩散(文本到图像、深度到图像),在这些场景中外部引导往往繁琐。
- 开源就绪 – 作者提供了干净的实现(GitHub 链接),可以快速集成到现有的 PyTorch 扩散库中(例如
diffusers、DiT-pytorch)。
限制与未来工作
- 依赖预训练 VAE – 预热阶段对齐到 VAE 潜在空间,因此 VAE 的质量仍然限制最终性能。
- 短期经验性关注 – 实验仅限于 ≤64 px 的图像合成;向高分辨率生成的扩展仍需验证。
- 引导超参数 – 对中间特征的无分类器引导强度需要对每个数据集进行适度调优。
- 未来方向 – 作者建议将自超越理念扩展到多模态扩散(例如音视频),并研究该方法是否能在微调场景(如领域适应)中取代外部引导。
作者
- Lingchen Sun
- Rongyuan Wu
- Zhengqiang Zhang
- Ruibin Li
- Yujing Sun
- Shuaizheng Liu
- Lei Zhang
论文信息
- arXiv ID: 2601.07773v1
- 分类: cs.CV
- 发表日期: 2026年1月12日
- PDF: 下载 PDF