[论文] 用于多智能体交互序列建模的 Diffusion Forcing
发布: (2025年12月20日 GMT+8 02:59)
6 min read
原文: arXiv
Source: arXiv - 2512.17900v1
概述
本文提出了 MAGNet(Multi‑Agent Diffusion Forcing Transformer),这是一种单一神经模型,能够为任意数量的交互人物生成逼真的动作。通过将基于扩散的生成建模与显式推理代理之间相互影响的 Transformer 结合,MAGNet 能够处理从预测伙伴下一步动作到合成跨越数百帧的整组表演等任务。
关键贡献
- 统一自回归扩散框架用于多代理动作生成,消除对特定任务模型的需求。
- 二元预测、合作伙伴填充和全场景生成均由同一架构支持。
- 在去噪步骤中显式的代理间耦合,实现任意规模群体的协同协调。
- 可扩展设计对参与者数量保持中立,可无缝从双人(二元)扩展到三人以上(多元)交互。
- 超长序列生成(数百时间步),同时保持时间一致性和空间合理性。
方法论
- Diffusion Forcing Backbone – 模型将运动生成视为逆扩散过程:它从随机噪声开始,迭代地“去噪”以产生合理的运动轨迹。
- Transformer‑Based Conditioning – 在每个去噪步骤中,transformer 编码器摄取所有代理的部分生成姿态以及任何外部条件(例如目标活动标签或部分观测)。
- Inter‑Agent Coupling Layer – 专用的注意力模块计算代理之间的成对交互,确保一个代理姿态的更新受到其伙伴当前姿态的影响。这是驱动协同行为的核心“diffusion forcing”。
- Autoregressive Sampling – 模型顺序生成帧:在生成第 t 帧后,它将新生成的姿态作为下一个扩散步骤的条件,从而保持长程时间一致性。
- Flexible Conditioning – 通过替换不同的条件信号(例如单个代理的观测运动、高层活动标签,或完全不使用条件),同一网络可以执行预测、修补或自由形式生成。
结果与发现
- Dyadic Benchmarks – 在标准的双人交互数据集(例如舞蹈、拳击)上,MAGNet 在姿态误差和视觉真实感方面匹配或略微超越了专门的最新模型的性能。
- Polyadic Scenarios – 在包含三名及以上代理的实验中,MAGNet 能保持紧密同步(例如群舞编阵)和真实的间距,优于最初仅为双人设计的基线方法。
- Long‑Horizon Generation – 该模型能够为最长达 300 帧的序列生成连贯运动,漂移或崩溃极少,这相较于之前在约 50 帧后就出现问题的基于扩散的运动生成器有显著提升。
- Ablation Studies – 移除跨代理耦合层会导致明显的不同步,验证了显式交互建模对协同行为至关重要。
实际意义
- 机器人与人机协作 – MAGNet 可用于实时预测人类队友的动作,使机器人能够调整轨迹,实现制造或辅助环境中的安全、流畅协作。
- 虚拟制作与游戏 – 内容创作者可以即时生成人群或团队动画,无需为每个角色手工制作动作,从而大幅缩短电影、VR 体验和多人游戏的制作时间。
- 社交计算与远程呈现 – 实时合成可信的团队手势可以丰富远程协作工具,使头像在会议或虚拟活动中显得更自然。
- 数据增强 – 合成的多人动作可补充稀缺的标注数据集,用于后续任务,如动作识别、姿态估计或行为预测。
限制与未来工作
- 计算成本 – 自回归扩散需要对每一帧进行多次去噪,这在实时应用中可能代价高昂;作者建议探索加速采样或蒸馏模型。
- 对高质量姿态数据的依赖 – 训练依赖干净的 3D 姿态标注,噪声或遮挡的输入可能导致性能下降。
- 语义控制受限 – 虽然活动标签可以引导生成,但对细粒度控制(例如指定精确轨迹或人际距离)仍是一个未解决的挑战。
- 未来方向 – 作者提出将物理约束融入系统、将框架扩展到异构主体(如人类+机器人),以及研究层次化扩散方案以进一步加速长序列生成。
作者
- Vongani H. Maluleke
- Kie Horiuchi
- Lea Wilken
- Evonne Ng
- Jitendra Malik
- Angjoo Kanazawa
论文信息
- arXiv ID: 2512.17900v1
- Categories: cs.CV, cs.RO
- Published: 2025年12月19日
- PDF: 下载 PDF