[Paper] DisMo:解耦运动表示用于开放世界运动迁移
发布: (2025年11月29日 GMT+8 02:25)
7 min read
原文: arXiv
Source: arXiv - 2511.23428v1
概览
本文提出了 DisMo,一种全新方式来学习与视觉外观完全解耦的运动表征。通过在原始视频片段上使用简单的图像空间重建损失进行训练,DisMo 捕捉到运动的 本质——独立于物体形状、纹理或姿态——从而可以将该运动迁移到任何目标内容,甚至跨越截然不同的类别。这为开发文本到视频、图像到视频或动画工具的开发者提供了更灵活的开放世界工作流。
关键贡献
- 完全解耦的运动嵌入,将动态信息与静态视觉线索(外观、身份、姿态)分离。
- 开放世界运动迁移:运动可以应用于语义上不相关的主体,无需显式对应关系。
- 模型无关的适配器:学习到的运动向量可以插入任何现有视频生成器(例如基于扩散的 T2V/I2V 模型),只需极少的额外参数。
- 最先进的零样本动作分类:在 Something‑Something v2、Jester 基准上超越近期视频表征模型如 V‑JEPA。
- 统一的训练目标(图像空间重建),避免了先前工作中使用的复杂对抗或对比损失。
方法论
- 数据与目标 – DisMo 在未筛选的视频片段上进行训练。对于每个片段,模型在给定当前帧和潜在运动码的情况下预测下一帧。损失仅为像素级重建误差,促使潜在向量捕获预测运动所需的全部信息。
- 编码器‑解码器结构 –
- 运动编码器:从短帧序列中提取紧凑的运动向量。
- 内容编码器:从单张参考帧中单独编码静态外观。
- 解码器:将运动码和内容码结合,重建未来帧。
- 通过设计实现解耦 – 在训练运动编码器时,内容编码器的参数保持冻结,迫使运动分支解释所有时间变化。
- 适配器模块 – 轻量神经适配器将 DisMo 的运动向量映射到任意下游视频生成器的潜在空间(例如扩散模型)。这使得该方法即插即用:后续升级视频生成器时,仍可使用相同的运动嵌入。
- 零样本评估 – 直接将运动嵌入输入线性分类器,以检验其在无需微调的情况下捕获动作语义的能力。
结果与发现
- 运动迁移质量 – 定性演示展示了将“狗跳跃”动作迁移到汽车、“人类舞蹈”迁移到卡通角色以及“物体摇晃”迁移到完全不同类别的对象等真实感迁移。迁移后的视频保留目标的外观,同时忠实再现源运动。
- 定量指标 – 与已有的运动迁移基线相比,DisMo 将 video‑FID 分数提升约 15 %,并将运动漂移(通过光流一致性衡量)降低约 20 %。
- 零样本分类 – 在 Something‑Something v2 上,DisMo 的运动嵌入达到 68.3 % 的 top‑1 准确率,超过 V‑JEPA 的 64.7 %。在 Jester 数据集上也有类似提升。
- 适配器效率 – 为最先进的文本到视频扩散模型添加适配器仅增加 <0.5 M 参数(约占基模型的 0.2 %),且保持原有生成质量。
实际意义
- 内容创作流水线 – 视频编辑者现在可以从任意片段提取运动“风格”,并将其应用于新资产(例如用真实世界舞蹈为 3D 模型驱动动画,无需手动绑定)。
- 游戏开发 – 程序化动画系统可以复用运动嵌入库来驱动角色、道具或 UI 元素,降低手工关键帧的需求。
- 增强现实与视觉特效 – 实时运动迁移实现了现场摄像画面即时重定向到虚拟化身或对象,拓展交互式 AR 体验。
- 面向未来的集成 – 由于 DisMo 通过轻量适配器工作,任何底层视频生成器的改进(如更快的扩散采样器、更高分辨率模型)都能立即受益,无需重新训练运动编码器。
- 动作理解 API – 运动嵌入可作为紧凑描述符用于视频检索、推荐或自动审核工具,提供比原始像素或光流特征更具语义意义的替代方案。
局限性与未来工作
- 时间范围 – 当前的重建损失侧重于短期预测(接下来几帧)。对于长程依赖(如复杂编舞),若不加入额外的时间建模,性能可能下降。
- 领域差距 – 虽然 DisMo 能跨多种类别工作,但极端视觉域转移(如医学影像到卡通)仍可能出现细微伪影,提示需要领域自适应微调。
- 实时约束 – 运动编码器本身轻量,但下游视频生成器(尤其是基于扩散的)在实时应用中仍然计算量大。
- 未来方向 – 作者计划将框架扩展到多模态条件(音频驱动运动),引入层次化运动码以处理更长序列,并在大规模网络视频上进行自监督预训练,以进一步提升零样本理解能力。
作者
- Thomas Ressler-Antal
- Frank Fundel
- Malek Ben Alaya
- Stefan Andreas Baumann
- Felix Krause
- Ming Gui
- Björn Ommer
论文信息
- arXiv ID: 2511.23428v1
- 分类: cs.CV
- 发布时间: 2025 年 11 月 28 日
- PDF: Download PDF