[论文] Sketch2Colab：草图条件的多人物动画通过可控流蒸馏

发布: 1天前 (2026年3月3日 GMT+8 02:52)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.02190v1

（请提供您希望翻译的正文内容，我将为您翻译成简体中文。）

概述

Sketch2Colab 是一个全新的框架，能够将简单的二维分镜草图转换为真实、具备对象感知的三维多人物动画。通过将基于草图的扩散先验与快速的“校正流”学生模型相结合，它让开发者能够生成协调的人物‑对象交互，同时对角色、关节、时间和接触点保持严格控制。

Sketch‑conditioned motion generation – 直接将分镜式草图映射到 3‑D 多人动作，无需大量配对的动作数据。
Two‑stage diffusion‑to‑flow distillation – 学习扩散先验，然后将其蒸馏为潜在空间的校正流学生，以实现快速、稳定的采样。
Differentiable constraint energies – 融合关键帧、轨迹和基于物理的损失，引导流场满足丰富的交互约束。
CTMC‑based event planner – 引入连续时间马尔可夫链来调度离散事件（接触、抓取、交接），生成清晰、相位良好的协作。
State‑of‑the‑art adherence & speed – 展示出比仅使用扩散的基线更高的约束满足度和感知质量，同时将推理时间缩短一个数量级。

Sketch‑driven diffusion prior – 一个条件扩散模型被训练用于从二维草图预测潜在运动表示。该模型学习符合草图空间布局的合理多人运动分布。
Rectified‑flow distillation – 将扩散先验蒸馏为在相同潜在空间中运行的确定性流模型。这个“学生”模型学习一个传输映射，能够在单次前向传播中生成样本，显著加快推理速度。
Energy‑guided transport – 可微分能量项编码：
- Keyframe constraints（特定时间点的关节位置）
- Trajectory constraints（手或物体的期望路径）
- Physics constraints（避免碰撞、地面接触）
  这些能量通过反向传播作用于流场，推动生成的运动满足分镜要求。
CTMC event planner – 连续时间马尔可夫链用于建模离散交互事件。规划器采样一系列事件时间和类型（例如“在 t=1.2 s 时交接手部”），这些会调制流动动力学，确保多代理动作在时间上对齐且物理上合理。
Latent‑space decoding – 最终的潜在运动被解码为完整的三维骨架轨迹和物体姿态，准备进行渲染或下游仿真。

Constraint adherence: 在 CORE4D 和 InterHuman 基准测试中，Sketch2Colab 将关键帧误差降低约 35 %，并将接触精度（例如手‑物体接触）提升约 28 %，相较于仅使用扩散的基线。
Perceptual quality: 人类评估者在 5 分制 Likert 量表上给生成动画的真实感评分提升了 1.2 倍。
Inference speed: 经过校正流（rectified‑flow）学生模型在单块 RTX 3090 上生成 5 秒的多人物片段仅需约 120 ms，而扩散基线约需 1.5 秒。
Robustness to multi‑entity conditioning: 即使在有 4 个交互代理和多个物体的情况下，系统仍能保持稳定采样，不会出现纯扩散模型常见的模式崩塌（mode collapse）问题。

快速原型制作用于游戏和 VR/AR： 设计师可以快速绘制故事板，并立即获得物理上合理的多角色动画，显著缩短迭代周期。
自动化内容生成流水线： 工作室可以将大量 2‑D 概念艺术输入 Sketch2Colab，以启动动作捕捉数据的生成，降低对昂贵 mocap 会议的依赖。
交互式机器人仿真： CTMC 规划器的事件级控制可重新用于模拟协作机器人‑人类任务，其中交接和抓取的精确时机至关重要。
AI 辅助动画工具： 将其集成到现有工具（如 Blender、Unity）作为插件，使艺术家能够细化草图、调整约束权重，并即时预览 3‑D 动作。