[Paper] Structure From Tracking:蒸馏结构保持的运动用于视频生成
发布: (2025年12月13日 GMT+8 02:56)
7 min read
原文: arXiv
Source: arXiv - 2512.11792v1
概览
本文提出了 SAM2VideoX,一种新的视频生成模型,能够在生成逼真、高保真运动的同时保持运动物体(尤其是人类和动物等关节结构)的底层结构。通过将最先进的自回归跟踪器(SAM2)中的运动先验蒸馏到双向扩散模型(CogVideoX),作者在客观指标和人工偏好评分上实现了显著提升。
关键贡献
- 结构保留的运动蒸馏:提出了一套流水线,从跟踪模型(SAM2)中提取全局运动先验并注入基于扩散的视频生成器。
- 双向特征融合模块:一种轻量化架构,融合跟踪器的前向和后向时间特征,为扩散模型提供跨整段视频的连贯物体布局感知。
- 局部 Gram Flow 损失:一种新颖的正则化项,对齐局部特征块的相对运动,鼓励在没有显式光流监督的情况下保持一致的形变。
- 最先进的结果:在 VBench 基准上创下新分数(整体 95.51 %,比之前最佳提升 2.60 %),并将 Fréchet Video Distance(FVD)降低超过 20 %,相较于强基线。
- 以人为中心的评估:用户研究中偏好率达到 71.4 %,表明生成的视频对普通观众更自然。
方法论
-
教师模型 – SAM2 跟踪
- SAM2 是一种自回归视频跟踪器,逐帧预测物体掩码,保持刚性和可变形部件的几何形状。
- 其隐藏状态编码了丰富的运动线索(例如肢体旋转或尾巴摆动),但不能直接用于生成。
-
学生模型 – CogVideoX 扩散
- CogVideoX 是一种双向视频扩散模型,从噪声合成帧,并以文本提示为条件。
- 作者为其加入了 双向特征融合模块,该模块摄取 SAM2 的前向和后向隐藏表征,实质上为扩散模型提供了一条“运动路线图”。
-
结构感知损失的训练
- 除了标准的扩散损失外,还加入了 局部 Gram Flow 损失,该损失对相邻时间片段的局部特征向量计算 Gram 矩阵(内积),匹配这些矩阵迫使生成器保持局部纹理和形状同步移动,模拟跟踪器中观察到的连贯运动。
-
蒸馏流水线
- 跟踪器在用于训练扩散模型的相同视频数据上运行,生成运动先验。
- 这些先验被视为软目标;扩散模型在遵循文本提示的同时学习复现它们。
整体训练循环很直接:采样一段视频,运行 SAM2 收集运动特征,将其输入融合模块,并对扩散损失和 Gram‑flow 损失共同反向传播。
结果与发现
| 指标 | SAM2VideoX | REPA(前 SOTA) | LoRA‑微调 CogVideoX |
|---|---|---|---|
| VBench 整体得分 | 95.51 %(+2.60 %) | 92.91 % | – |
| FVD(越低越好) | 360.57(比 REPA 低 21 %,比 LoRA 低 22 %) | ~458 | ~464 |
| 人类偏好(成对比较) | 71.4 % | 28.6 % | – |
- 各类别均有一致提升:模型在刚性物体视频(如车辆)和高度可变形主体(如舞蹈中的人类、动物)上均表现出色。
- 定性改进:视觉示例展示了更平滑的肢体关节、较少的“幽灵”伪影,以及在快速运动时更好的物体轮廓保持。
- 消融研究:去除双向融合会使 VBench 下降约 1.4 %,去掉局部 Gram Flow 损失会使人类偏好下降约 9 %,验证了每个组件的贡献。
实际意义
- 内容创作流水线:工作室和独立开发者可以用更少的手工关键帧生成高质量的动画资产(如角色动作片段),节省运动捕捉后处理时间。
- AR/VR 与游戏:实时化身或 NPC 可以在文本提示驱动下保持物理上合理的肢体运动,降低对手工动画绑定的需求。
- 用于训练的合成数据:结构更好的视频合成可为下游计算机视觉模型(如姿态估计、动作识别)提供更真实的训练数据,可能提升鲁棒性。
- 跨模态叙事:将 SAM2VideoX 与现有文本到视频工具结合,使创作者能够编写复杂场景(如“猫跳上行驶的火车”)而无需担心不合逻辑的形变。
局限性与未来工作
- 对跟踪器质量的依赖:在极端遮挡或极快运动下,SAM2 的表现仍会下降,这可能会把错误传递给扩散模型。
- 计算成本:双向融合和 Gram‑flow 损失增加了开销,使训练速度慢于普通扩散模型。
- 对未见领域的泛化:虽然模型对人类和动物表现良好,但在高度非关节或抽象视觉领域(如流体模拟)上的表现尚未验证。
- 未来方向:作者建议整合更鲁棒的多目标跟踪器,探索轻量化融合方案以实现实时推理,并将框架扩展到 3‑D 视频生成或可控风格迁移。
作者
- Yang Fei
- George Stoica
- Jingyuan Liu
- Qifeng Chen
- Ranjay Krishna
- Xiaojuan Wang
- Benlin Liu
论文信息
- arXiv ID: 2512.11792v1
- 分类: cs.CV
- 发布日期: 2025 年 12 月 12 日
- PDF: Download PDF