[Paper] GriDiT：因式分解的网格式扩散用于高效长图像序列生成

发布: 1个月前 (2025年12月25日 GMT+8 00:46)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.21276v1

概述

本文介绍了 GriDiT，一种新颖的基于扩散的框架，将长图像序列视为因子化的网格，而非单一的 3‑D 张量。该方法首先生成低分辨率的“粗略”视频网格，然后对每帧独立进行超分辨率处理，作者因此实现了更高的视觉质量、更好的时间一致性，并且相较于现有的视频扩散模型，推理速度提升至 2× faster inference。

关键贡献

基于网格的因式分解：将视频生成重新表述为在时空网格上的二维图像扩散问题，消除对定制三维架构的需求。
两阶段流水线：
1. 使用扩散 Transformer（DiT）的 粗网格扩散 以捕获帧间关系。
2. 逐帧超分辨率，在不影响时间一致性的前提下注入高频细节。
数据高效训练：从子采样的帧网格学习，减少所需视频数据量，同时仍能处理任意长度的序列。
广域领域泛化：在多样化数据集（如人体动作、自然场景）上开箱即用，无需额外先验或监督。
实证优势：在多个基准上以 FVD、IS 和用户研究评分设立新的最先进水平（SoTA），并将生成延迟减半。

方法论

网格构建 – 将 T 帧的视频在时间和空间上进行下采样，生成形状为 (H′ × W′ × T′) 的低分辨率网格。网格的每个单元是一个小图像块，代表一个子采样的帧。
Diffusion Transformer (DiT) 主干 – 将用于 2‑D 图像扩散的相同 DiT 架构直接应用于网格。自注意力在展平的网格 token 上操作，使模型能够在没有显式 3‑D 卷积的情况下学习时间依赖性。
粗略生成 – 扩散过程将随机网格去噪为一个合理的低分辨率视频。由于网格体积小，扩散步骤成本低，模型可以在普通 GPU 内存上进行训练。
逐帧超分辨率 – 将每个生成的低分辨率帧送入专用的超分辨率扩散模型（或确定性上采样器）。因为帧是独立处理的，高频纹理得以添加，而不会破坏粗略阶段已建立的时间一致性。
任意长度扩展 – 可以对网格进行填充或截断，从而生成比训练时见到的更长的视频；DiT 的注意力机制会自然地适应新的时间维度。

Results & Findings

Dataset	Metric (lower = better)	GriDiT	Prior SoTA (e.g., Video Diffusion, Make‑It‑3D)
Kinetics‑600	FVD	68	112
UCF‑101	IS (higher = better)	9.4	7.8
Human3.6M	Pose‑consistency (°)	2.1	3.7
Inference latency (per 16‑frame clip)	—	0.21 s (≈2× faster)	0.42 s

视觉质量：样本显示出更锐利的边缘、更真实的运动模糊，以及更少的闪烁伪影。
时间一致性：注意力驱动的粗略阶段保留了运动轨迹，帧级上采样器不会打乱这些轨迹。
可扩展性：对最长 128 帧序列的实验表明生成质量保持稳定，验证了该方法处理长视频的能力。

实际意义

更快的面向视频的产品原型制作 – 开发者可以将 GriDiT 集成到合成视频数据的流水线中（例如，训练自动驾驶感知模型），计算预算减半。
内容创作工具 – 两阶段设计与现有的图像到图像放大器兼容，可为视频编辑器、游戏资产流水线或 AR/VR 内容生成器提供即插即用的扩展。
低资源环境 – 由于粗糙扩散在极小的网格上进行，训练和推理可以在单个高端 GPU 上运行，为设备端或边缘生成打开了可能。
领域无关的生成 – 无需专门的运动先验或姿态标注；同一模型可在医学成像序列、卫星时序影像或动画 UI 原型上进行微调。

限制与未来工作

超分辨率独立性 – 虽然逐帧上采样保持了时间一致性，但它无法注入对运动感知的高频细节（例如，在不同帧之间变化的运动模糊）。
分辨率权衡 – 粗网格的空间分辨率限制了可捕获的最细微运动；极快的运动仍可能出现模糊。
训练数据偏差 – 帧率极不规则或宽高比极端的数据集需要额外的预处理。
未来方向 建议包括：
1. 联合时空超分辨率，以建模运动依赖的纹理。
2. 自适应网格大小，动态为复杂场景分配更多 token。
3. 与条件控制（文本、音频）集成，实现引导式视频合成。

作者

Snehal Singh Tomar
Alexandros Graikos
Arjun Krishna
Dimitris Samaras
Klaus Mueller

论文信息

arXiv ID: 2512.21276v1
分类: cs.CV
出版时间: 2025年12月24日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 少看，准看：双向感知塑形用于多模态推理

大型视觉语言模型（VLMs）通常受益于中间视觉线索，这些线索可以通过外部工具注入，或在生成过程中作为潜在视觉标记产生。

[Paper] ProEdit：基于反演的编辑，从 Prompt 正确实现

基于逆向的视觉编辑提供了一种有效且无需训练的方式，根据用户指令编辑图像或视频。现有方法通常……

[Paper] 通过轨迹-检测匹配学习关联用于多目标跟踪

Multi-object tracking 旨在通过关联跨视频帧的检测来随时间保持对象身份。文献中存在两种主导范式：tr...

[Paper] Yume-1.5：文本控制的交互式世界生成模型

最近的方法已经展示了使用 diffusion models 生成交互式和可探索世界的前景。然而，这些方法中的大多数面临着…