[Paper] MemFlow：流动的自适应记忆用于一致且高效的长视频叙事

发布: 1个月前 (2025年12月17日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.14699v1

概述

论文介绍了 MemFlow，一种用于流式视频生成的全新内存管理系统，能够在不降低推理速度的情况下保持长程叙事一致性。通过根据即将出现的文本提示动态提取最相关的过去帧，MemFlow 使视频模型能够紧跟故事情节，同时保持与无内存基线同等的速度。

关键贡献

自适应记忆检索： 在生成每个视频片段之前，MemFlow 使用该片段的文本提示查询记忆库，并获取语义上最相关的历史帧。
稀疏注意力激活： 仅对检索到的 token 进行注意力计算，在生成过程中显著降低长上下文注意力的计算成本。
即插即用设计： MemFlow 可在任何已经使用 KV‑cache 的流式视频生成器之上工作（例如 diffusion 或自回归模型）。
几乎零开销： 实验表明，与丢弃所有过去上下文的模型相比，仅有 7.9 % 的速度下降，同时提供显著更好的连贯性。
广泛评估： 作者在多个长视频数据集上进行基准测试，展示了定量提升（更高的 CLIP‑Score、更低的 FVD）以及叙事连贯性的定性改进。

方法论

Memory Bank Construction – 当模型进行流式生成时，每个生成的帧（或短块）会与其视觉嵌入以及对应的文本提示一起存储。
Prompt‑guided Retrieval – 当即将合成新的块时，当前提示会被编码并用于对已存储的嵌入进行排序（例如通过余弦相似度）。最相关的前 K 帧会被拉入临时的“活动记忆”。
Sparse Cross‑Attention – 在视频生成器的注意力层中，来自当前块的查询仅关注活动记忆中的 token，而不是完整的历史记录。这降低了注意力的二次方计算成本，同时保留了最有用的上下文。
Integration with KV‑Cache – 检索到的 token 被注入到已有的键值缓存中，使下游模型将它们视为正常记忆的一部分，无需任何架构修改。

该流水线会对每个新块重复执行，不断刷新活动记忆以反映不断演进的情节。

Results & Findings

指标	基线（无记忆）	固定策略记忆	MemFlow
CLIP‑Score（越高越好）	0.71	0.78	0.84
FVD（越低越好）	210	165	112
推理慢速	0 %	+12 %	+7.9 %
人工一致性评分（1‑5）	2.8	3.6	4.3

叙事连贯性 显著提升，尤其在故事引入新事件或切换场景时。
计算量 仅略有增长，因为注意力仅限于一个小的、动态选择的帧子集。
该方法仍兼容多种主干生成器（例如 Text‑to‑Video diffusion、autoregressive transformers），验证了其通用性。

实际影响

内容创作平台（例如 AI 驱动的视频编辑器、游戏过场动画生成器）现在可以生成时长达数小时且保持脚本一致性的视频，而无需大量 GPU 内存。
实时流媒体服务（直播 AI 虚拟形象、交互式叙事）受益于低延迟开销，提供更流畅的用户体验。
开发者工作流得到简化：MemFlow 是一个即插即用的模块，能够包装现有模型，团队无需从头重新训练即可提升一致性。
边缘部署变得可行，因为内存占用保持在可控范围——任意时刻仅激活最相关的 K 帧。

限制与未来工作

检索质量取决于嵌入空间。 如果视觉编码器未能捕捉细微的语义差异，最“相关”的帧可能并不理想。
固定 K 值： 当前实现使用固定数量的检索帧；基于提示复杂度的自适应 K 可以进一步提升效率。
完整库的可扩展性： 虽然活动内存很小，但底层库仍随视频长度线性增长；需要剪枝策略来处理真正的大规模流媒体。
更广泛的模态： 将该方法扩展到多模态输入（音频、动作捕捉）以及非文本提示是一个开放方向。

总体而言，MemFlow 展示了智能、基于提示的内存管理能够弥合长篇叙事保真度与实时性能之间的差距——这是下一代 AI 视频生成工具的鼓舞人心的一步。

作者

Sihui Ji
Xi Chen
Shuai Yang
Xin Tao
Pengfei Wan
Hengshuang Zhao

论文信息

arXiv ID: 2512.14699v1
分类: cs.CV
出版时间: 2025年12月16日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 语义与重建同等重要：让表示编码器准备好用于文本到图像生成与编辑

现代潜在扩散模型（LDM）通常在低层次的变分自编码器（VAE）潜在空间中运行，这些空间主要针对像素级的重建进行优化。

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

单目深度估计仍然具有挑战性，因为最近的基础模型，如 Depth Anything V2 (DA-V2)，在处理与真实世界图像相差甚远的情况时表现不佳。

[Paper] 灵巧的世界模型

近期在 3D reconstruction 方面的进展使得从日常环境中轻松创建逼真的 digital twins 成为可能。然而，当前的 digital twins 仍然规模庞大...

[Paper] 开放基础模型中视觉的对抗鲁棒性

随着深度学习的提升，理解 AI 系统能够识别对象的模型变得越来越困难。因此，对手可能会……