[Paper] RELIC：交互式视频世界模型与长时程记忆

发布: 2个月前 (2025年12月4日 GMT+8 02:29)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.04040v1

概览

本文介绍了 RELIC，一种新型交互式视频世界模型，能够实时流式生成高质量视频，同时记住已观看的内容并精确响应用户指令。通过结合长时记忆、3‑D 一致的空间召回以及快速推理，RELIC 将生成式视频系统在虚拟环境、游戏和 AR/VR 原型等交互式应用中的能力提升到了新的水平。

主要贡献

统一框架：同时实现实时流式、长期记忆和细粒度用户控制——而之前的模型只能单独实现其中一项。
压缩潜在令牌记忆：存储在键值（KV）缓存中的潜在令牌同时编码相对动作和绝对相机姿态，实现高效的 3‑D 一致检索。
双向师生蒸馏：将一个 5 秒视频扩散模型微调并蒸馏为因果学生模型，学生模型通过一种新颖的 “自强” 训练机制能够生成任意长度的序列。
可扩展实现：一个拥有 140 亿参数、在精选的 Unreal Engine 数据集上训练的模型，在单 GPU 上可达约 16 FPS，实现实时性能。
相较于现有基线的改进：在动作保真度、长时稳定性和空间记忆检索方面均有显著提升。

方法论

输入与条件 – 系统接收一张参考图像和一段文字指令（例如 “向前走三步”）。
潜在视频扩散 – 自回归扩散模型在潜在空间中生成视频帧，相比像素空间扩散计算成本大幅降低。
记忆表示 – 过去的帧被压缩为 潜在令牌，捕获产生这些帧的运动（相对动作）和相机的绝对姿态。这些令牌存储在 KV 缓存中，充当紧凑的情景记忆。
相机感知检索 – 生成新帧时，模型使用当前姿态查询缓存，检索最相关的令牌，以保持场景的 3‑D 一致性。
师生蒸馏 – 双向 “教师” 扩散模型（在 5 秒片段上训练）被微调以预测超出原始视野的内容。因果 “学生” 模型通过自强学习教师的输出，即在训练时将学生自己的预测反馈回教师的上下文，从而在不爆炸内存的前提下学习长程依赖。
实时推理 – 蒸馏后的学生模型自回归运行，每一步从 KV 缓存中读取，实现单 GPU 上 16 FPS 的生成。

结果与发现

指标	RELIC	先前最先进模型
推理速度	~16 FPS（单 GPU）	4–8 FPS
动作遵循准确率	92 %（文本‑动作对齐）	~78 %
长时一致性（5 s 与 30 s 漂移）	<2 % 漂移	>7 % 漂移
空间记忆检索（姿态条件召回）	85 % 正确检索	61 %

从定性上看，RELIC 能在虚拟房间中探索数十秒，正确重新进入之前看到的角落，并且在长时间相机旋转后仍能保持物体（如移动的椅子）在正确位置。自强蒸馏对于在学生模型远超教师原始训练视野时保持连贯性至关重要。

实际意义

游戏与 VR 原型 – 开发者可以在飞行中生成可交互、可探索的环境，无需预先烘焙每条相机路径，大幅加速关卡设计迭代。
AR 内容创作 – 实时视频合成能够遵循用户视角，实现动态覆盖并保持与物理世界的锚定。
仿真与训练 – 长时、记忆感知的视频流可用于机器人或自动驾驶训练，模拟需要记住过去障碍物的真实场景。
创意工具 – 艺术家只需编写高层次指令（如 “穿过森林”），让 RELIC 填充一致、写实的画面，降低手工动画工作量。
可扩展云服务 – 由于记忆缓存轻量，RELIC 可作为低延迟 API 部署于交互媒体平台。

局限性与未来工作

领域特定性 – 模型在合成的 Unreal Engine 场景上训练；在真实视频或高度多样的视觉域上性能可能下降。
记忆扩展 – 虽然 KV 缓存紧凑，但极长会话（数分钟以上）仍可能溢出 GPU 内存，需要层次化或离设备缓存策略。
动作粒度 – 细粒度操作（如精确的手势）尚未支持，扩展动作空间是一个开放方向。
对新相机模型的泛化 – 当前姿态编码假设针孔相机；适配鱼眼或 360° 相机需进一步研究。

作者建议扩大训练数据以包含真实视频，探索层次记忆结构，并将多模态控制（如语音 + 手势）集成进系统，作为后续工作。

作者

Hong Yicong
Mei Yiqun
Ge Chongjian
Xu Yiran
Zhou Yang
Bi Sai
Hold‑Geoffroy Yannick
Roberts Mike
Fisher Matthew
Shechtman Eli
Sunkavalli Kalyan
Liu Feng
Li Zhengqi
Tan Hao

论文信息

arXiv ID: 2512.04040v1
分类: cs.CV
发布时间: 2025 年 12 月 3 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] EditThinker：为任意图像编辑器解锁迭代推理

Instruction-based image editing 已成为一个重要的研究领域，受益于 image generation foundation models，已经实现了高水平的美学效果……

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

视觉语言模型（VLMs）在视觉问答（VQA）中取得了强劲的表现，但它们仍受限于静态的训练数据。检索…

[Paper] SIMPACT：仿真驱动的动作规划使用视觉语言模型

视觉语言模型（VLMs）展现出卓越的常识和语义推理能力。然而，它们缺乏对物理动态的扎实理解。