[Paper] Structure From Tracking：蒸馏结构保持的运动用于视频生成

发布: 1个月前 (2025年12月13日 GMT+8 02:56)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.11792v1

概览

本文提出了 SAM2VideoX，一种新的视频生成模型，能够在生成逼真、高保真运动的同时保持运动物体（尤其是人类和动物等关节结构）的底层结构。通过将最先进的自回归跟踪器（SAM2）中的运动先验蒸馏到双向扩散模型（CogVideoX），作者在客观指标和人工偏好评分上实现了显著提升。

结构保留的运动蒸馏：提出了一套流水线，从跟踪模型（SAM2）中提取全局运动先验并注入基于扩散的视频生成器。
双向特征融合模块：一种轻量化架构，融合跟踪器的前向和后向时间特征，为扩散模型提供跨整段视频的连贯物体布局感知。
局部 Gram Flow 损失：一种新颖的正则化项，对齐局部特征块的相对运动，鼓励在没有显式光流监督的情况下保持一致的形变。
最先进的结果：在 VBench 基准上创下新分数（整体 95.51 %，比之前最佳提升 2.60 %），并将 Fréchet Video Distance（FVD）降低超过 20 %，相较于强基线。
以人为中心的评估：用户研究中偏好率达到 71.4 %，表明生成的视频对普通观众更自然。

教师模型 – SAM2 跟踪
- SAM2 是一种自回归视频跟踪器，逐帧预测物体掩码，保持刚性和可变形部件的几何形状。
- 其隐藏状态编码了丰富的运动线索（例如肢体旋转或尾巴摆动），但不能直接用于生成。
学生模型 – CogVideoX 扩散
- CogVideoX 是一种双向视频扩散模型，从噪声合成帧，并以文本提示为条件。
- 作者为其加入了 双向特征融合模块，该模块摄取 SAM2 的前向和后向隐藏表征，实质上为扩散模型提供了一条“运动路线图”。
结构感知损失的训练
- 除了标准的扩散损失外，还加入了 局部 Gram Flow 损失，该损失对相邻时间片段的局部特征向量计算 Gram 矩阵（内积），匹配这些矩阵迫使生成器保持局部纹理和形状同步移动，模拟跟踪器中观察到的连贯运动。
蒸馏流水线
- 跟踪器在用于训练扩散模型的相同视频数据上运行，生成运动先验。
- 这些先验被视为软目标；扩散模型在遵循文本提示的同时学习复现它们。

整体训练循环很直接：采样一段视频，运行 SAM2 收集运动特征，将其输入融合模块，并对扩散损失和 Gram‑flow 损失共同反向传播。

指标	SAM2VideoX	REPA（前 SOTA）	LoRA‑微调 CogVideoX
VBench 整体得分	95.51 %（+2.60 %）	92.91 %	–
FVD（越低越好）	360.57（比 REPA 低 21 %，比 LoRA 低 22 %）	~458	~464
人类偏好（成对比较）	71.4 %	28.6 %	–