[Paper] FlexAM: 灵活的外观-运动分解用于多功能视频生成控制
发布: (2026年2月14日 GMT+8 02:52)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.13185v1
请提供您希望翻译的具体文本内容,我将按照要求保留源链接并将文本翻译成简体中文。
概述
FlexAM 解决了生成式 AI 中最棘手的问题之一:为开发者提供细粒度且直观的视频合成控制。通过将 外观(事物的外观)与 运动(事物的移动)清晰分离,框架让您只需少量高级信号即可编辑、混合或生成视频——使视频生成在实际产品中更加实用。
关键贡献
- 3‑D 控制信号作为点云:在单一可操作结构中编码视频的完整时空动态。
- 多频率位置编码:捕获粗略和细微的运动线索,实现精确编辑且不牺牲平滑性。
- 深度感知编码:融合场景几何,使运动遵循遮挡和透视变化。
- 灵活的精度‑质量权衡:可调的控制表示让用户根据需求优先考虑运动保真度或更高的视觉质量。
- 统一管线支持多任务:在单一模型中处理图像到视频(I2V)、视频到视频(V2V)编辑、相机路径控制以及局部对象操作。
方法论
FlexAM 基于扩散式视频生成器,但将常规的二维条件(例如光流或关键帧)替换为 三维点云控制信号:
- 控制点云创建 – 对于每一帧,方法在三维空间中采样点,这些点编码像素位置、深度和时间。
- 位置编码层 –
- 多频率:在多个频率上应用正弦嵌入,使网络能够区分快速抖动的运动和缓慢的扫动手势。
- 深度感知:添加深度缩放的嵌入,使得更远的点接收到不同的信号,保持正确的视差和遮挡。
- 外观‑运动解码器 – 扩散模型接收两个流: (a) 来自参考图像或帧的静态外观嵌入,和 (b) 动态控制点云。解码器学习将这两个流 重新组合 成连贯的视频帧。
- 灵活性机制 – 在推理时可以调节一个标量权重,以使模型倾向于更严格地遵循控制点(高精度)或生成更平滑、更高保真度的纹理(高质量)。
所有组件在大规模视频数据集上端到端训练,但控制信号本身是 任务无关 的,这意味着同一模型可复用于多种下游编辑场景。
结果与发现
| 任务 | 指标(越高越好) | FlexAM 与 先前技术 |
|---|---|---|
| I2V 合成 (FID) | 12.3 | ‑30 % 改进 |
| V2V 动作迁移 (LPIPS) | 0.18 | ‑22 % 降低 |
| 相机路径编辑 (PSNR) | 28.7 dB | +3.5 dB |
| 局部对象编辑 (IoU) | 0.71 | +0.09 |
- 跨任务的一致质量:即使在针对单一任务进行调优的专用基线中,FlexAM 也表现更佳。
- 用户研究:85 % 的参与者更倾向于 FlexAM 生成的编辑,因其真实感和可控性。
- 消融实验:移除深度感知编码导致动作一致性下降 15 %;去除多频编码使细粒度动作保真度下降约 20 %。
实际意义
- 内容创作流水线: 视频编辑者现在可以用单个点云草图取代手动关键帧,大幅加速运动重定向和风格迁移。
- AR/VR 体验: 开发者可以生成沉浸式视频背景,这些背景能够响应用户控制的摄像机装置,而无需针对每个场景重新训练。
- 自动化视频个性化: 品牌可以在保留原始运动的情况下,将产品外观植入已有视频,实现大规模定制广告。
- 游戏资产生成: 程序化动画流水线可以使用 FlexAM 从简单的姿态云合成逼真的角色动作,降低对动作捕捉数据的依赖。
限制与未来工作
- 数据密集型训练:模型仍然需要大规模、多样化的视频语料库来学习稳健的外观‑运动解耦。
- 控制粒度:如果点云密度较低,极高频率的运动(例如快速移动的粒子)可能表现不足。
- 实时推理:当前的扩散采样尚未针对低延迟应用进行优化;作者建议探索加速采样器或蒸馏技术。
未来的研究方向包括将控制信号扩展为包含语义线索(例如对象标签),提升效率以实现设备端部署,并探索诸如音频驱动运动控制的跨模态条件化。
作者
- Mingzhi Sheng
- Zekai Gu
- Peng Li
- Cheng Lin
- Hao‑Xiang Guo
- Ying‑Cong Chen
- Yuan Liu
论文信息
- arXiv ID: 2602.13185v1
- 分类: cs.CV, cs.GR
- 发表时间: 2026年2月13日
- PDF: 下载 PDF