[Paper] 视频化身中的主动智能 via Closed-loop World Modeling
发布: (2025年12月24日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.20615v1
概述
本文介绍了 L‑IVA,一种新基准,要求视频化身在随机生成的世界中追求长期目标;以及 ORCA,首个为这些化身提供 内部世界模型 的架构,使它们能够规划、行动并自我纠正。通过闭环连接化身的预测与实际发生的情况,系统将视频化身从被动复现转向真正的、以目标为导向的自主行为。
关键贡献
- L‑IVA 基准:一个任务套件和评估协议,用于衡量开放世界视频化身环境中的目标导向规划。
- ORCA 框架:一个闭环的 “Observe‑Think‑Act‑Reflect”(OTAR)循环,持续将预测与生成的结果进行验证,保持化身在不确定性下的信念状态准确。
- 层次化双系统架构:
- 系统 2(战略)使用 POMDP 形式进行高层推理和状态预测。
- 系统 1(战术)将抽象计划转化为具体的、模型特定的动作描述,以驱动视频生成引擎。
- 连续信念更新 与结果验证,使在随机视觉环境中的多步任务执行更加稳健。
- 实证验证 表明,相较于开放循环和非反思基线,任务成功率和行为连贯性有显著提升。
方法论
-
问题框定 – Avatar 控制被建模为部分可观测马尔可夫决策过程(POMDP)。Avatar 只能观察渲染后的视频帧,而看不到底层状态,因此必须维护对可能世界状态的信念分布。
-
闭环 OTAR 循环 –
- 观察:摄取最新生成的帧。
- 思考:System 2 预测未来状态并选择高级计划(例如,“捡起杯子,然后走向窗户”)。
- 行动:System 1 将计划转化为一系列文本动作说明,传递给底层视频合成模型(例如,基于扩散的 avatar 生成器)。
- 反思:帧渲染完成后,系统将观察到的结果与预测结果进行比较,更新信念,并在下一个循环前纠正漂移。
-
层次化双系统设计 –
- System 2 使用基于 transformer 的世界模型,预测潜在状态转移并评估长时程奖励。
- System 1 是一个轻量级字幕网络,训练用于将抽象动作(例如,“向前移动”)映射为视频生成器所需的具体文本提示。
-
训练与评估 – 作者在大规模合成交互视频语料上训练世界模型,然后在 L‑IVA 任务上进行微调。成功度通过任务完成度、avatar 动作的连贯性以及与预期目标的一致性来衡量。
结果与发现
| 指标 | ORCA(闭环) | 开环基线 | 非反射基线 |
|---|---|---|---|
| 任务成功率 | 78 % | 45 % | 52 % |
| 行为一致性(人工评分) | 4.3 / 5 | 3.1 / 5 | 3.4 / 5 |
| 信念漂移(平均 KL 散度) | 0.12 | 0.38 | 0.31 |
- 更高的成功率:ORCA 在超过四分之三的试验中完成多步骤目标(例如,“取一杯饮料并放在桌子上”),远超仅在开始时规划一次的基线。
- 对随机性的鲁棒性:Reflect 步骤在生成模型引入视觉噪声或意外伪影时显著降低了信念漂移。
- 连贯的运动:人工评估者注意到更平滑、更有目的性的化身行为,表明层次推理产生了更真实的动作序列。
实际意义
- 交互式虚拟助理 – 开发者可以在 VR/AR 或远程协作工具中嵌入由 ORCA 驱动的化身,使其能够自主获取物体、引导用户或适应动态环境。
- 游戏 AI – 闭环世界建模方法可以移植到需要在视觉不确定性下进行规划的 NPC(例如战争迷雾、程序生成的关卡),同时保持可信的动画表现。
- 内容创作流水线 – 工作室可以使用 ORCA 生成长篇、目标驱动的视频序列,无需手动脚本每一帧,从而减少动画制作的工作量。
- 人机交互研究 – OTAR 循环与机器人中使用的认知架构相呼应;将其与实体代理结合,可能提升在感知噪声较大的真实世界任务规划能力。
对于开发者而言,关键的收获是 加入反思验证循环和双系统层级能够让视频化身真正行动,而不仅仅是模仿,这为更自主、对用户响应更灵敏的数字角色打开了大门。
限制与未来工作
- 依赖底层视频生成器 – ORCA 的性能取决于生成模型的质量和可控性;字幕到视频的低保真度仍可能导致失败。
- 信念更新的可扩展性 – 当前的信念表示相对轻量;要扩展到更丰富、更高维的世界可能需要更复杂的推理(例如粒子滤波)。
- 对真实视频的泛化 – 实验在合成环境中进行;将该方法迁移到光真实或实时摄像头视频仍是一个未解决的挑战。
- 未来方向 作者提出的包括与多模态传感器(音频、深度)更紧密的集成、端到端学习 System 1 策略与生成器,以及将基准扩展到协作多化身场景。
作者
- Xuanhua He
- Tianyu Yang
- Ke Cao
- Ruiqi Wu
- Cheng Meng
- Yong Zhang
- Zhuoliang Kang
- Xiaoming Wei
- Qifeng Chen
论文信息
- arXiv ID: 2512.20615v1
- 分类: cs.CV
- 发布时间: 2025年12月23日
- PDF: 下载 PDF