[Paper] 世界是你的画布:使用参考图像、轨迹和文本绘制可提示事件
发布: (2025年12月19日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.16924v1
概述
本文介绍了 WorldCanvas,一个新框架,允许用户通过混合三种直观输入——自然语言提示、运动轨迹、以及参考图像——来“绘制”动态视频场景。通过融合这些模态,系统能够生成连贯且可控的视频事件——比如多代理交互、按指令出现或消失的物体,甚至是物理上不可能的动作——同时在整个剪辑中保持对象身份和场景一致性。
关键贡献
- 多模态提示引擎 – 将文本、二维/三维轨迹和参考图像组合成单一的统一控制信号,用于视频合成。
- 轨迹驱动的运动编码 – 引入一种紧凑的表示方式,捕捉对象的位置、时间和运动方式,并包含进出可见性的标记。
- 参考引导的外观 – 使用示例图像锁定生成对象的视觉风格和身份,实现对外观和纹理的细粒度控制。
- 一致的世界建模 – 展示了自发的时间一致性:即使在临时遮挡或“魔法”消失后,对象仍保持其身份和场景布局。
- 开源演示与数据集 – 提供项目页面,包含代码、预训练模型以及一套精心策划的提示‑轨迹‑图像三元组,以保证可复现性。
方法论
WorldCanvas 基于扩散式视频生成器,但通过两条新颖的条件流进行增强:
- 轨迹条件 – 对每个运动实体,用每帧的
(x, y)坐标序列加上可见性标记进行描述。该轨迹通过一个小型 Transformer 嵌入,并直接将运动线索注入扩散潜空间。 - 参考图像条件 – 将目标对象的单张图像输入预训练的视觉编码器(例如 CLIP‑ViT),其嵌入与文本嵌入融合,确保生成的对象符合提供的视觉风格。
在训练阶段,模型接收配对数据:短视频片段、对应的文本描述、真实轨迹(通过现成的跟踪器提取)以及从片段中抽取的参考帧。损失函数将标准的扩散去噪目标与辅助对齐项相结合,后者惩罚偏离提供的轨迹和参考外观的情况。
在推理时,开发者可以提供上述三种提示的任意组合,模型将合成一个同时满足所有约束的视频。
结果与发现
- 定性: 生成的视频呈现平滑的运动,遵循提供的路径,物体纹理与参考图像匹配准确,即使物体暂时消失,场景布局也保持一致。
- 定量: 在留出基准测试中,WorldCanvas 相较于仅文本基线将 轨迹遵循度(通过平均端点误差衡量)提升约 ≈30 %,并将 外观保真度(通过相对于参考帧的 LPIPS 衡量)提升约 ≈22 %。
- 用户研究: 在一次包含 30 名参与者的评估中,78 % 的用户认为 WorldCanvas 的输出比现有的文本到视频工具“更易控制”,且 65 % 的用户觉得多模态提示对“创意原型设计”直观易用。
实际意义
- 快速原型制作(游戏与 AR/VR) – 设计师无需编写代码或手动动画资产,即可脚本化角色动作、对象生成和视觉风格。
- 自动化内容生成 – 营销团队可以通过提供产品照片(参考)和简易分镜脚本(轨迹 + 字幕),生成短小的产品演示。
- 仿真与训练 – 机器人研究人员能够创建具有精确运动模式和视觉线索的合成视频场景,用于域随机化训练。
- 创意工具 – 艺术家只需调整轨迹时序,即可尝试“违背常理”的物理效果(例如,物体逆重力运动),为视觉叙事开辟新路径。
限制与未来工作
- 轨迹的可扩展性 – 当前实现能够处理约 5 个代理的适度数量,在推理时间明显增长之前;向拥挤场景的扩展仍是一个未解决的挑战。
- 分辨率与时长 – 生成的视频限制为 256 × 256 像素,约 3 秒;更高分辨率、更长时长的剪辑需要更高效的扩散骨干网络。
- 对未见对象的泛化 – 虽然参考图像指导外观,但模型有时在处理与训练数据差异巨大的对象时会遇到困难(例如,外来野生动物)。
- 未来方向 – 作者计划整合层次化场景图以实现更好的多对象协同,探索潜在空间的升采样以实现高清输出,并开放一个社区基准用于多模态视频合成。
作者
- Hanlin Wang
- Hao Ouyang
- Qiuyu Wang
- Yue Yu
- Yihao Meng
- Wen Wang
- Ka Leong Cheng
- Shuailei Ma
- Qingyan Bai
- Yixuan Li
- Cheng Chen
- Yanhong Zeng
- Xing Zhu
- Yujun Shen
- Qifeng Chen
论文信息
- arXiv ID: 2512.16924v1
- 分类: cs.CV
- 发布时间: 2025年12月18日
- PDF: 下载 PDF