[Paper] Astra: 通用交互式世界模型与自回归去噪
发布: (2025年12月10日 GMT+8 02:59)
8 min read
原文: arXiv
Source: arXiv - 2512.08931v1
概览
Astra 是一种全新的“交互式世界模型”,能够为各种真实场景任务预测逼真的视频未来——比如自动驾驶的行车记录仪画面、机器人手臂的操作,甚至是游戏引擎中的移动摄像机。通过将扩散式视频生成与自回归去噪主干相结合,Astra 可以同时接受过去的帧 以及 明确的动作指令(例如转向角度、夹爪力度),并实时流式输出连贯、长时程的视频预测。
关键贡献
- 通用交互式世界模型 – 适用于多种异构动作模态(摄像机运动、机器人关节指令、导航动作)。
- 自回归去噪架构 – 一种扩散 Transformer,逐帧去噪并以因果历史为条件,实现流式预测。
- 噪声增强历史记忆 – 向过去帧注入受控噪声,防止模型对精确的过去过拟合,在响应性与时间一致性之间取得平衡。
- 动作感知适配器 – 轻量级插件,将动作向量直接注入去噪层,确保预测视频与提供的控制信号紧密对齐。
- 动作专家混合路由 – 动态为每种动作类型(如连续转向 vs. 离散抓取指令)选择合适的专家,提高跨任务的通用性。
- 领先的实验结果 – 在从驾驶数据集到机器人操作套件的基准上,展示出更高的视频保真度、更长的预测时域以及更紧密的动作‑视频对齐。
方法论
- 时间因果注意力 – 模型使用因果掩码处理滑动窗口中的过去帧,使每一次预测只能看到更早的帧,模拟实时感知。
- 自回归去噪 – 从噪声潜在开始,Astra 逐帧迭代去噪,并以已生成的帧为条件。这类似于图像扩散模型,但扩展到了时间维度。
- 噪声增强历史记忆 – 在将过去帧送入 Transformer 之前,加入少量高斯噪声。这样网络必须同时依赖视觉上下文和输入的动作信号,防止“复制粘贴”过去。
- 动作感知适配器 – 动作向量被投影后加到每一步去噪过程中的中间 token 嵌入上,为模型提供直接通路,以控制输入调节像素级变化。
- 动作专家混合 – 一个门控网络检查输入的动作类型,并将信号路由至专门的专家(例如用于转向的连续控制专家、用于抓取的离散抓取专家)。输出在进入去噪流水线前被融合。
所有组件通过标准的扩散损失(预测加入的噪声)以及辅助的动作对齐损失(惩罚指令与生成视频中运动的偏差)端到端训练。
结果与发现
| 数据集 | 时域范围(帧) | FVD ↓(越低越好) | 动作对齐 ↑ |
|---|---|---|---|
| CARLA(驾驶) | 30 | 45.2(对比 68.7 SOTA) | 0.84 |
| RoboNet(机器人抓取) | 20 | 38.9(对比 55.1) | 0.79 |
| Kinetics‑400(摄像机运动) | 25 | 52.3(对比 71.4) | 0.81 |
- 更高的保真度:即使在 2‑3 秒的预测后,Astra 的视频仍保留细腻的纹理和运动线索。
- 更长的连贯时域:噪声增强记忆使模型在不漂移的情况下保持时间一致性。
- 更紧密的动作对齐:动作感知适配器将指令转向角度与预测车道曲率的平均偏差降低约 30 %,相较于之前的世界模型有显著提升。
定性演示显示,Astra 在收到转向指令后能够平滑地从直行段切换到急转弯;机器人手臂在目标物体移动时也能正确调整抓取力度。
实际意义
| 行业 | Astra 的帮助方式 |
|---|---|
| 自动驾驶 | 实时模拟 “如果‑那么” 场景用于安全验证,或生成严格遵循控制输入的合成训练数据。 |
| 机器人 | 为操作提供实时视觉前瞻——例如机器人在执行抓取前预览结果,从而降低失败率。 |
| AR/VR 与游戏 | 流式交互式过场动画,可随玩家操作即时响应,降低内容制作成本。 |
| 监控与预测性维护 | 在计划的摄像机运动下预测视角,帮助检查无人机规划最优视点。 |
| 科研与仿真 | 提供即插即用的世界模型,可基于任意动作向量进行条件化,加速新控制算法的原型开发。 |
由于 Astra 采用自回归且具因果注意力,可在边缘 GPU 上实现 在线 预测——这对延迟敏感的闭环控制至关重要。
局限性与未来工作
- 计算量大:自回归扩散仍需对每帧执行多次去噪步骤,可能成为超低延迟应用的瓶颈。
- 动作模态扩展:虽然专家混合能够处理多种离散/连续动作,但加入全新模态(如自然语言指令)仍需重新训练或新增专家头。
- 领域差距:模型在精心策划的数据集上训练,若直接应用于高度非结构化环境(如越野驾驶),性能可能下降,需要额外微调。
未来方向包括 蒸馏 自回归去噪器为单步预测器,扩展专家库以支持多模态语言‑动作输入,以及结合强化学习回路,使 Astra 能通过真实交互反馈不断改进预测。
作者
- Yixuan Zhu
- Jiaqi Feng
- Wenzhao Zheng
- Yuan Gao
- Xin Tao
- Pengfei Wan
- Jie Zhou
- Jiwen Lu
论文信息
- arXiv ID: 2512.08931v1
- 分类: cs.CV, cs.AI, cs.LG
- 发布日期: 2025 年 12 月 9 日
- PDF: Download PDF