[Paper] 上下文强制：具有长上下文的一致自回归视频生成

发布: 3天前 (2026年2月6日 GMT+8 02:58)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.06028v1

请提供您希望翻译的具体文本内容，我将按照要求保留源链接并进行简体中文翻译。

概述

本文介绍了 Context Forcing，一种训练框架，使自回归视频生成器能够在比以往更长的时间内保持连贯的故事。通过使用能够看到整个生成历史的教师来教导“学生”模型，作者消除了长期存在的、将上下文长度限制在仅几秒钟的错配问题。其结果是视频合成能够在 20秒 – 2分钟 内保持一致，远超现有的实时生成器。

关键贡献

长上下文教师‑学生范式：用能够访问完整视频历史的教师取代传统的短窗口教师，消除学生‑教师监督间的鸿沟。
上下文强制损失：一种新颖的目标函数，迫使学生在教师基于完整过去上下文的条件下匹配教师的预测。
慢‑快记忆架构：一种上下文管理系统，压缩冗余视觉信息，将线性增长的上下文转化为可扩展的“慢‑快”记忆库。
实证突破：展示了持续生成可达 >20 秒（实验中最高达 2 分钟），比之前的先进方法如 LongLive 和 Infinite‑RoPE 长 2–10 倍。
全面评估：引入并报告了多项长视频指标（时间一致性、运动平滑度、语义漂移），显示出相较基线的显著提升。

方法论

师生设置
- 学生：将用于实时生成的自回归视频模型。
- 老师：相同架构的副本，但在离线模式下运行，能够访问完整的生成序列（整个 “历史”）。
上下文强制训练
- 在每个时间步，老师使用完整的过去上下文预测下一帧。
- 学生仅使用可用的上下文（随着生成进行而增长）预测同一帧。
- 一个 强制损失（例如 KL 散度）使学生的分布与老师的对齐，确保学生学习模仿已经掌握长程依赖的模型。
慢‑快记忆
- 快记忆 以全分辨率存储最近的帧，以捕获细粒度细节。
- 慢记忆 将较旧的帧聚合为压缩表示（例如下采样特征、关键帧嵌入）。
- 当上下文长度超过阈值时，较旧的快记忆条目会迁移到慢记忆中，使整体内存占用大致保持不变，同时保留关键的时间线索。
训练流水线
- 将视频划分为短片段，以提高 GPU 使用效率。
- 老师在整个片段（或以流式方式在整段视频上）上运行，而学生则逐步处理。
- 只对学生进行反向传播；老师的参数在初始热身后被冻结。

结果与发现

指标	Context Forcing	LongLive	Infinite‑RoPE
时间一致性 (↑)	0.84	0.62	0.58
运动平滑度 (↓)	0.12	0.27	0.31
语义漂移 (↓)	0.09	0.21	0.24
最大可用上下文 (秒)	>20 (up to 120)	~5‑10	~5‑8

更长的上下文 直接转化为更平滑的运动和更少的突变场景切换。
定性示例显示模型能够在数十秒内保持对象身份、光照条件和叙事流——而先前的模型在几秒后就会失去这些。
消融实验确认，教师的完整历史访问和 Slow‑Fast 记忆都是必不可少的；移除任意一个都会使性能下降至接近基线水平。

实际意义

实时内容创作：游戏引擎、虚拟制作或直播叠加现在可以生成在较长时间内保持连贯的背景动画，而无需预渲染。
扩展的 AR/VR 体验：用户可以与 AI 生成的环境交互，这些环境在数分钟内自然演变，提升沉浸感。
数据高效的视频合成：Slow‑Fast 记忆降低 GPU 内存使用，使其能够在消费级硬件（如 RTX 30 系列）上部署更长的片段。
改进的视频到视频翻译：在适配源视频（例如风格迁移）时，较长的上下文有助于保持场景连贯性，减少闪烁。
基础模型微调：教师‑学生范式可以重新用于其他需要长程一致性的序列生成任务（音频、文本）。

限制与未来工作

训练成本：在学生模型旁运行全上下文教师仍然需要大量 GPU 时长，尤其是对分钟级视频。
记忆压缩权衡：Slow‑Fast 方案可能会丢弃细微的长期线索；未来工作可以探索可学习的压缩方式或层次注意力。
领域泛化：实验主要聚焦于相对受控的数据集（例如人体动作、合成场景）。将其扩展到高度动态的户外影像仍是一个未解的挑战。
交互式控制：当前设置假设无条件生成；将用户驱动的约束（如关键帧编辑）整合进来是一个有前景的方向。

Context Forcing 将自回归视频生成的前沿从“短时段”推进到真正的长篇合成，为开发交互式媒体、实时视觉特效以及 AI 驱动内容流水线的开发者打开了新可能。

作者

Shuo Chen
Cong Wei
Sun Sun
Ping Nie
Kai Zhou
Ge Zhang
Ming-Hsuan Yang
Wenhu Chen

论文信息

arXiv ID: 2602.06028v1
分类: cs.CV
出版日期: 2026年2月5日
PDF: 下载 PDF

[Paper] 上下文强制：具有长上下文的一致自回归视频生成

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] 从透视描述预测相机姿态用于空间推理

[Paper] SwimBird: 在混合自回归 MLLMs 中引发可切换的推理模式