[Paper] GriDiT:因式分解的网格式扩散用于高效长图像序列生成
发布: (2025年12月25日 GMT+8 00:46)
7 分钟阅读
原文: arXiv
Source: arXiv - 2512.21276v1
概述
本文介绍了 GriDiT,一种新颖的基于扩散的框架,将长图像序列视为因子化的网格,而非单一的 3‑D 张量。该方法首先生成低分辨率的“粗略”视频网格,然后对每帧独立进行超分辨率处理,作者因此实现了更高的视觉质量、更好的时间一致性,并且相较于现有的视频扩散模型,推理速度提升至 2× faster inference。
关键贡献
- 基于网格的因式分解:将视频生成重新表述为在时空网格上的二维图像扩散问题,消除对定制三维架构的需求。
- 两阶段流水线:
- 使用扩散 Transformer(DiT)的 粗网格扩散 以捕获帧间关系。
- 逐帧超分辨率,在不影响时间一致性的前提下注入高频细节。
- 数据高效训练:从子采样的帧网格学习,减少所需视频数据量,同时仍能处理任意长度的序列。
- 广域领域泛化:在多样化数据集(如人体动作、自然场景)上开箱即用,无需额外先验或监督。
- 实证优势:在多个基准上以 FVD、IS 和用户研究评分设立新的最先进水平(SoTA),并将生成延迟减半。
方法论
- 网格构建 – 将 T 帧的视频在时间和空间上进行下采样,生成形状为 (H′ × W′ × T′) 的低分辨率网格。网格的每个单元是一个小图像块,代表一个子采样的帧。
- Diffusion Transformer (DiT) 主干 – 将用于 2‑D 图像扩散的相同 DiT 架构直接应用于网格。自注意力在展平的网格 token 上操作,使模型能够在没有显式 3‑D 卷积的情况下学习时间依赖性。
- 粗略生成 – 扩散过程将随机网格去噪为一个合理的低分辨率视频。由于网格体积小,扩散步骤成本低,模型可以在普通 GPU 内存上进行训练。
- 逐帧超分辨率 – 将每个生成的低分辨率帧送入专用的超分辨率扩散模型(或确定性上采样器)。因为帧是独立处理的,高频纹理得以添加,而不会破坏粗略阶段已建立的时间一致性。
- 任意长度扩展 – 可以对网格进行填充或截断,从而生成比训练时见到的更长的视频;DiT 的注意力机制会自然地适应新的时间维度。
Results & Findings
| Dataset | Metric (lower = better) | GriDiT | Prior SoTA (e.g., Video Diffusion, Make‑It‑3D) |
|---|---|---|---|
| Kinetics‑600 | FVD | 68 | 112 |
| UCF‑101 | IS (higher = better) | 9.4 | 7.8 |
| Human3.6M | Pose‑consistency (°) | 2.1 | 3.7 |
| Inference latency (per 16‑frame clip) | — | 0.21 s (≈2× faster) | 0.42 s |
- 视觉质量:样本显示出更锐利的边缘、更真实的运动模糊,以及更少的闪烁伪影。
- 时间一致性:注意力驱动的粗略阶段保留了运动轨迹,帧级上采样器不会打乱这些轨迹。
- 可扩展性:对最长 128 帧序列的实验表明生成质量保持稳定,验证了该方法处理长视频的能力。
实际意义
- 更快的面向视频的产品原型制作 – 开发者可以将 GriDiT 集成到合成视频数据的流水线中(例如,训练自动驾驶感知模型),计算预算减半。
- 内容创作工具 – 两阶段设计与现有的图像到图像放大器兼容,可为视频编辑器、游戏资产流水线或 AR/VR 内容生成器提供即插即用的扩展。
- 低资源环境 – 由于粗糙扩散在极小的网格上进行,训练和推理可以在单个高端 GPU 上运行,为设备端或边缘生成打开了可能。
- 领域无关的生成 – 无需专门的运动先验或姿态标注;同一模型可在医学成像序列、卫星时序影像或动画 UI 原型上进行微调。
限制与未来工作
- 超分辨率独立性 – 虽然逐帧上采样保持了时间一致性,但它无法注入对运动感知的高频细节(例如,在不同帧之间变化的运动模糊)。
- 分辨率权衡 – 粗网格的空间分辨率限制了可捕获的最细微运动;极快的运动仍可能出现模糊。
- 训练数据偏差 – 帧率极不规则或宽高比极端的数据集需要额外的预处理。
- 未来方向 建议包括:
- 联合时空超分辨率,以建模运动依赖的纹理。
- 自适应网格大小,动态为复杂场景分配更多 token。
- 与条件控制(文本、音频)集成,实现引导式视频合成。
作者
- Snehal Singh Tomar
- Alexandros Graikos
- Arjun Krishna
- Dimitris Samaras
- Klaus Mueller
论文信息
- arXiv ID: 2512.21276v1
- 分类: cs.CV
- 出版时间: 2025年12月24日
- PDF: 下载 PDF