[Paper] 视频生成的运动归因

发布: 3周前 (2026年1月14日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.08828v1

请提供您希望翻译的具体文本内容，我将按照要求进行简体中文翻译并保留原始的格式和链接。

概览

本文介绍了 Motive（MOTIon attribution for Video gEneration），一个基于梯度的框架，能够 pinpoint 哪些训练片段对视频模型的 motion（而非静态外观）影响最大。通过分离时间动态，Motive 让研究人员和工程师能够理解、评估并策划数据，从而直接提升现代文本到视频生成器的运动质量。

关键贡献

以运动为中心的归因：首个在运动层面上对视频生成影响进行归因的方法，将其与外观分离。
可扩展的基于梯度的流水线：可处理大规模、高分辨率视频数据集和最先进的扩散模型。
运动加权损失掩码：高效地将梯度聚焦在时间变化上，实现快速影响计算。
数据驱动的微调：展示了选择高影响力片段进行微调可在时间一致性和物理合理性上获得可衡量的提升。
人工验证的改进：在 VBench 基准上相较基线获得 74.1 % 的人工偏好胜率。

方法论

Baseline video generator – 作者使用预训练的文本到视频扩散模型（例如 Imagen Video、Make‑a‑Video）。
Gradient‑based influence scoring – 对于每个训练片段，他们对一个 motion‑weighted 掩码的损失进行反向传播（对跨帧变化的像素赋予更高权重）。得到的梯度幅值用作 motion influence score。
Isolation of motion – 通过屏蔽静态区域，损失仅关注时间动态，确保归因反映的是运动影响，而不仅是纹理或颜色。
Data selection – 根据影响分数对片段进行排序。选取前 k 个高影响力片段用于微调，而低影响或负面影响的片段可以被过滤掉。
Evaluation – 对微调后的模型在 VBench（视频生成基准）上进行评估，并通过人工偏好研究测量平滑度、动态范围和物理真实感。

结果与发现

Influence distribution: 数据集约 10 % 的小子集占据了运动改进潜力的大部分。
Temporal consistency boost: 使用 Motive 选取的片段进行微调，使 VBench 运动平滑度得分提升 +0.18（相对提升）。
Dynamic degree: 模型生成的运动更加多样且物理上更合理（例如，真实的物体轨迹、流体动力学）。
Human study: 74.1 % 的参与者更偏好 Motive 微调模型生成的视频，而非原始基线。
Efficiency: 动作加权掩码相比于朴素的全帧梯度归因将计算时间降低约 40 %，使该方法在拥有数百万片段的数据集上可行。

实际意义

有针对性的数据策划 – 团队可以自动挑选出最“运动丰富”的片段进行微调，从而节省标注和计算资源。
提升产品质量 – AI 驱动的视频广告、虚拟化身或游戏过场动画等应用能够实现更流畅、更逼真的运动，而无需在整个数据集上重新训练。
生成模型调试 – 当模型产生抖动或物理上不可能的运动时，Motive 能够定位出有问题的训练样本，帮助快速修复。
数据集设计 – 大型视频语料库（例如素材库）的策划者可以优先收集或标注运动影响度高的片段，从而提升下游生成性能。
跨模态扩展 – 以运动为中心的归因思路可以迁移到音频驱动的视频合成或多模态叙事流水线，在这些场景中时间对齐至关重要。

限制与未来工作

范围限于扩散模型 – 实验聚焦于基于扩散的文本到视频生成器；对自回归或基于 GAN 的视频模型的适用性仍需验证。
掩码的粒度 – 当前的运动加权掩码是简单的逐像素时间梯度；更复杂的运动表示（光流、3D 姿态）可能提供更细致的归因。
数据集偏差 – 影响分数可能反映数据集构成（例如，对某些动作的过度代表），而非模型本身的能力，需要谨慎解读。
可扩展性上限 – 虽然高效，但对数十亿片段计算梯度仍需大量 GPU 资源；未来工作可探索近似或抽样策略。
用户可控的权衡 – 将 Motive 集成到交互式数据策划 UI，使开发者能够在运动改进与视觉保真度之间平衡，是一个待探索的方向。

作者

Xindi Wu
Despoina Paschalidou
Jun Gao
Antonio Torralba
Laura Leal‑Taixé
Olga Russakovsky
Sanja Fidler
Jonathan Lorraine

论文信息

arXiv ID: 2601.08828v1
分类: cs.CV, cs.AI, cs.LG, cs.MM, cs.RO
发表时间: 2026年1月13日
PDF: 下载 PDF

[Paper] 视频生成的运动归因

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] MHA2MLA-VLM：在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力

[Paper] PRISM-CAFO：先验条件化遥感基础设施分割与映射用于CAFOs

[Paper] 何时两个评分优于一个？探索 Diffusion Models 的集成