[Paper] 视频化身中的主动智能 via Closed-loop World Modeling

发布: 1个月前 (2025年12月24日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20615v1

概述

本文介绍了 L‑IVA，一种新基准，要求视频化身在随机生成的世界中追求长期目标；以及 ORCA，首个为这些化身提供 内部世界模型 的架构，使它们能够规划、行动并自我纠正。通过闭环连接化身的预测与实际发生的情况，系统将视频化身从被动复现转向真正的、以目标为导向的自主行为。

L‑IVA 基准：一个任务套件和评估协议，用于衡量开放世界视频化身环境中的目标导向规划。
ORCA 框架：一个闭环的 “Observe‑Think‑Act‑Reflect”（OTAR）循环，持续将预测与生成的结果进行验证，保持化身在不确定性下的信念状态准确。
层次化双系统架构：
- 系统 2（战略）使用 POMDP 形式进行高层推理和状态预测。
- 系统 1（战术）将抽象计划转化为具体的、模型特定的动作描述，以驱动视频生成引擎。
连续信念更新 与结果验证，使在随机视觉环境中的多步任务执行更加稳健。
实证验证 表明，相较于开放循环和非反思基线，任务成功率和行为连贯性有显著提升。

问题框定 – Avatar 控制被建模为部分可观测马尔可夫决策过程（POMDP）。Avatar 只能观察渲染后的视频帧，而看不到底层状态，因此必须维护对可能世界状态的信念分布。
闭环 OTAR 循环 –
- 观察：摄取最新生成的帧。
- 思考：System 2 预测未来状态并选择高级计划（例如，“捡起杯子，然后走向窗户”）。
- 行动：System 1 将计划转化为一系列文本动作说明，传递给底层视频合成模型（例如，基于扩散的 avatar 生成器）。
- 反思：帧渲染完成后，系统将观察到的结果与预测结果进行比较，更新信念，并在下一个循环前纠正漂移。
层次化双系统设计 –
- System 2 使用基于 transformer 的世界模型，预测潜在状态转移并评估长时程奖励。
- System 1 是一个轻量级字幕网络，训练用于将抽象动作（例如，“向前移动”）映射为视频生成器所需的具体文本提示。
训练与评估 – 作者在大规模合成交互视频语料上训练世界模型，然后在 L‑IVA 任务上进行微调。成功度通过任务完成度、avatar 动作的连贯性以及与预期目标的一致性来衡量。

指标	ORCA（闭环）	开环基线	非反射基线
任务成功率	78 %	45 %	52 %
行为一致性（人工评分）	4.3 / 5	3.1 / 5	3.4 / 5
信念漂移（平均 KL 散度）	0.12	0.38	0.31

对于开发者而言，关键的收获是 加入反思验证循环和双系统层级能够让视频化身真正行动，而不仅仅是模仿，这为更自主、对用户响应更灵敏的数字角色打开了大门。