[Paper] GriDiT:因式分解的网格式扩散用于高效长图像序列生成

发布: (2025年12月25日 GMT+8 00:46)
7 分钟阅读
原文: arXiv

Source: arXiv - 2512.21276v1

概述

本文介绍了 GriDiT,一种新颖的基于扩散的框架,将长图像序列视为因子化的网格,而非单一的 3‑D 张量。该方法首先生成低分辨率的“粗略”视频网格,然后对每帧独立进行超分辨率处理,作者因此实现了更高的视觉质量、更好的时间一致性,并且相较于现有的视频扩散模型,推理速度提升至 2× faster inference

关键贡献

  • 基于网格的因式分解:将视频生成重新表述为在时空网格上的二维图像扩散问题,消除对定制三维架构的需求。
  • 两阶段流水线
    1. 使用扩散 Transformer(DiT)的 粗网格扩散 以捕获帧间关系。
    2. 逐帧超分辨率,在不影响时间一致性的前提下注入高频细节。
  • 数据高效训练:从子采样的帧网格学习,减少所需视频数据量,同时仍能处理任意长度的序列。
  • 广域领域泛化:在多样化数据集(如人体动作、自然场景)上开箱即用,无需额外先验或监督。
  • 实证优势:在多个基准上以 FVD、IS 和用户研究评分设立新的最先进水平(SoTA),并将生成延迟减半。

方法论

  1. 网格构建 – 将 T 帧的视频在时间和空间上进行下采样,生成形状为 (H′ × W′ × T′) 的低分辨率网格。网格的每个单元是一个小图像块,代表一个子采样的帧。
  2. Diffusion Transformer (DiT) 主干 – 将用于 2‑D 图像扩散的相同 DiT 架构直接应用于网格。自注意力在展平的网格 token 上操作,使模型能够在没有显式 3‑D 卷积的情况下学习时间依赖性。
  3. 粗略生成 – 扩散过程将随机网格去噪为一个合理的低分辨率视频。由于网格体积小,扩散步骤成本低,模型可以在普通 GPU 内存上进行训练。
  4. 逐帧超分辨率 – 将每个生成的低分辨率帧送入专用的超分辨率扩散模型(或确定性上采样器)。因为帧是独立处理的,高频纹理得以添加,而不会破坏粗略阶段已建立的时间一致性。
  5. 任意长度扩展 – 可以对网格进行填充或截断,从而生成比训练时见到的更长的视频;DiT 的注意力机制会自然地适应新的时间维度。

Results & Findings

DatasetMetric (lower = better)GriDiTPrior SoTA (e.g., Video Diffusion, Make‑It‑3D)
Kinetics‑600FVD68112
UCF‑101IS (higher = better)9.47.8
Human3.6MPose‑consistency (°)2.13.7
Inference latency (per 16‑frame clip)0.21 s (≈2× faster)0.42 s
  • 视觉质量:样本显示出更锐利的边缘、更真实的运动模糊,以及更少的闪烁伪影。
  • 时间一致性:注意力驱动的粗略阶段保留了运动轨迹,帧级上采样器不会打乱这些轨迹。
  • 可扩展性:对最长 128 帧序列的实验表明生成质量保持稳定,验证了该方法处理长视频的能力。

实际意义

  • 更快的面向视频的产品原型制作 – 开发者可以将 GriDiT 集成到合成视频数据的流水线中(例如,训练自动驾驶感知模型),计算预算减半。
  • 内容创作工具 – 两阶段设计与现有的图像到图像放大器兼容,可为视频编辑器、游戏资产流水线或 AR/VR 内容生成器提供即插即用的扩展。
  • 低资源环境 – 由于粗糙扩散在极小的网格上进行,训练和推理可以在单个高端 GPU 上运行,为设备端或边缘生成打开了可能。
  • 领域无关的生成 – 无需专门的运动先验或姿态标注;同一模型可在医学成像序列、卫星时序影像或动画 UI 原型上进行微调。

限制与未来工作

  • 超分辨率独立性 – 虽然逐帧上采样保持了时间一致性,但它无法注入对运动感知的高频细节(例如,在不同帧之间变化的运动模糊)。
  • 分辨率权衡 – 粗网格的空间分辨率限制了可捕获的最细微运动;极快的运动仍可能出现模糊。
  • 训练数据偏差 – 帧率极不规则或宽高比极端的数据集需要额外的预处理。
  • 未来方向 建议包括:
    1. 联合时空超分辨率,以建模运动依赖的纹理。
    2. 自适应网格大小,动态为复杂场景分配更多 token。
    3. 与条件控制(文本、音频)集成,实现引导式视频合成。

作者

  • Snehal Singh Tomar
  • Alexandros Graikos
  • Arjun Krishna
  • Dimitris Samaras
  • Klaus Mueller

论文信息

  • arXiv ID: 2512.21276v1
  • 分类: cs.CV
  • 出版时间: 2025年12月24日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »