[Paper] 视频化身中的主动智能 via Closed-loop World Modeling

发布: (2025年12月24日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.20615v1

概述

本文介绍了 L‑IVA,一种新基准,要求视频化身在随机生成的世界中追求长期目标;以及 ORCA,首个为这些化身提供 内部世界模型 的架构,使它们能够规划、行动并自我纠正。通过闭环连接化身的预测与实际发生的情况,系统将视频化身从被动复现转向真正的、以目标为导向的自主行为。

关键贡献

  • L‑IVA 基准:一个任务套件和评估协议,用于衡量开放世界视频化身环境中的目标导向规划。
  • ORCA 框架:一个闭环的 “Observe‑Think‑Act‑Reflect”(OTAR)循环,持续将预测与生成的结果进行验证,保持化身在不确定性下的信念状态准确。
  • 层次化双系统架构
    • 系统 2(战略)使用 POMDP 形式进行高层推理和状态预测。
    • 系统 1(战术)将抽象计划转化为具体的、模型特定的动作描述,以驱动视频生成引擎。
  • 连续信念更新 与结果验证,使在随机视觉环境中的多步任务执行更加稳健。
  • 实证验证 表明,相较于开放循环和非反思基线,任务成功率和行为连贯性有显著提升。

方法论

  1. 问题框定 – Avatar 控制被建模为部分可观测马尔可夫决策过程(POMDP)。Avatar 只能观察渲染后的视频帧,而看不到底层状态,因此必须维护对可能世界状态的信念分布。

  2. 闭环 OTAR 循环

    • 观察:摄取最新生成的帧。
    • 思考:System 2 预测未来状态并选择高级计划(例如,“捡起杯子,然后走向窗户”)。
    • 行动:System 1 将计划转化为一系列文本动作说明,传递给底层视频合成模型(例如,基于扩散的 avatar 生成器)。
    • 反思:帧渲染完成后,系统将观察到的结果与预测结果进行比较,更新信念,并在下一个循环前纠正漂移。
  3. 层次化双系统设计

    • System 2 使用基于 transformer 的世界模型,预测潜在状态转移并评估长时程奖励。
    • System 1 是一个轻量级字幕网络,训练用于将抽象动作(例如,“向前移动”)映射为视频生成器所需的具体文本提示。
  4. 训练与评估 – 作者在大规模合成交互视频语料上训练世界模型,然后在 L‑IVA 任务上进行微调。成功度通过任务完成度、avatar 动作的连贯性以及与预期目标的一致性来衡量。

结果与发现

指标ORCA(闭环)开环基线非反射基线
任务成功率78 %45 %52 %
行为一致性(人工评分)4.3 / 53.1 / 53.4 / 5
信念漂移(平均 KL 散度)0.120.380.31
  • 更高的成功率:ORCA 在超过四分之三的试验中完成多步骤目标(例如,“取一杯饮料并放在桌子上”),远超仅在开始时规划一次的基线。
  • 对随机性的鲁棒性:Reflect 步骤在生成模型引入视觉噪声或意外伪影时显著降低了信念漂移。
  • 连贯的运动:人工评估者注意到更平滑、更有目的性的化身行为,表明层次推理产生了更真实的动作序列。

实际意义

  • 交互式虚拟助理 – 开发者可以在 VR/AR 或远程协作工具中嵌入由 ORCA 驱动的化身,使其能够自主获取物体、引导用户或适应动态环境。
  • 游戏 AI – 闭环世界建模方法可以移植到需要在视觉不确定性下进行规划的 NPC(例如战争迷雾、程序生成的关卡),同时保持可信的动画表现。
  • 内容创作流水线 – 工作室可以使用 ORCA 生成长篇、目标驱动的视频序列,无需手动脚本每一帧,从而减少动画制作的工作量。
  • 人机交互研究 – OTAR 循环与机器人中使用的认知架构相呼应;将其与实体代理结合,可能提升在感知噪声较大的真实世界任务规划能力。

对于开发者而言,关键的收获是 加入反思验证循环和双系统层级能够让视频化身真正行动,而不仅仅是模仿,这为更自主、对用户响应更灵敏的数字角色打开了大门。

限制与未来工作

  • 依赖底层视频生成器 – ORCA 的性能取决于生成模型的质量和可控性;字幕到视频的低保真度仍可能导致失败。
  • 信念更新的可扩展性 – 当前的信念表示相对轻量;要扩展到更丰富、更高维的世界可能需要更复杂的推理(例如粒子滤波)。
  • 对真实视频的泛化 – 实验在合成环境中进行;将该方法迁移到光真实或实时摄像头视频仍是一个未解决的挑战。
  • 未来方向 作者提出的包括与多模态传感器(音频、深度)更紧密的集成、端到端学习 System 1 策略与生成器,以及将基准扩展到协作多化身场景。

作者

  • Xuanhua He
  • Tianyu Yang
  • Ke Cao
  • Ruiqi Wu
  • Cheng Meng
  • Yong Zhang
  • Zhuoliang Kang
  • Xiaoming Wei
  • Qifeng Chen

论文信息

  • arXiv ID: 2512.20615v1
  • 分类: cs.CV
  • 发布时间: 2025年12月23日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »