[Paper] ReViSE：在统一模型中实现基于推理的视频编辑与自反学习

发布: 2个月前 (2025年12月11日 GMT+8 02:57)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.09924v1

概览

本文提出了 ReViSE，一种统一的视频编辑模型，能够在对剪辑进行修改之前对物理可行性和因果动态进行推理。通过将视觉‑语言推理模块与生成器耦合，系统可以自检其编辑是否真正满足用户指令——这是此前的“统一”视频模型所难以实现的。为此，作者还发布了 RVE‑Bench，一个用于评估推理感知编辑和上下文视频生成的全新基准。

主要贡献

Reason‑Informed Video Editing (RVE) 任务：形式化了必须遵守物理和因果推理的编辑（例如 “让球弹得更高但不破坏地板”）。
RVE‑Bench：一个包含两部分（Reasoning‑Informed Editing + In‑Context Generation）的基准，覆盖多样的真实场景和推理维度。
ReViSE 架构：一个自我反思框架，将 Vision‑Language Model (VLM) 作为内部批评者，为视频生成器提供可微分的反馈。
Self‑Reflective Reasoning (SRF) loss：训练生成器使其输出与 VLM 的逻辑评估保持一致，缩小理解与编辑之间的差距。
实验提升：在推理感知编辑子集上，ReViSE 相比最强基线提升了 32 % 的整体得分，同时提升了视觉保真度。

方法论

统一骨干网络 – ReViSE 基于一个 Transformer‑结构的视频生成模型，可接受文本提示并自回归生成帧。
内部 VLM 批评者 – 预训练的视觉‑语言模型（如 CLIP‑Video）处理 编辑后 的视频以及原始指令，输出一个 “合理性得分”。
自我反思循环 – 训练期间，生成器的输出被送入 VLM；VLM 得分的梯度通过可微分的 推理损失（SRF）反向传播到生成器，推动其产生 VLM 认为逻辑一致的编辑。
联合生成与评估 – 同一架构也可用于上下文视频生成，此时 VLM 检查新生成的剪辑是否遵循多步叙事。
基准评测 – RVE‑Bench 提供配对的 “前后” 视频、文本指令和真实的推理标注（如物理约束、因果链）。评估将标准视频质量指标（FID、CLIP‑Score）与新提出的 Reasoning Accuracy 指标（来源于 VLM 的判断）相结合。

结果与发现

指标	ReViSE	先前 SOTA（如 Video‑LLaMA）
Overall Reasoning‑Informed Editing Score	0.78	0.59
Editing Accuracy (logic‑consistency)	0.84	0.62
Visual Fidelity (FID)	23.1 ↓	31.4
In‑Context Generation Score	0.71	0.58

32 % 的提升 在整体推理感知编辑得分上，表明自我反思循环有效地将生成与逻辑约束对齐。
视觉质量同步提升，说明推理反馈并未牺牲保真度。
消融实验显示，去除 SRF 损失会导致推理准确率下降约 15 %，验证了其核心作用。

实际意义

内容创作流水线 – 视频编辑者现在可以让单一模型执行 “让汽车加速更快，同时保持路面完整” 的指令，模型会在不需要人工后期处理的情况下遵守物理规律。
仿真与训练数据生成 – 自动驾驶或机器人仿真器可以生成保持物理合理性的场景变体，减少手工规则的编写工作。
交互式 AI 助手 – 基于聊天的工具可直接操控视频（如 “展示杯子倾倒但不砸坏桌子”），无需将推理模块与合成模块分离。
安全关键领域 – 在 AR/VR 或医学视频增强中，确保编辑遵守因果约束可防止误导性可视化。

局限性与未来工作

依赖 VLM 质量 – 自我反思的反馈质量受限于底层视觉‑语言模型；VLM 的偏见或盲点会传递给生成器。
对长视频的可扩展性 – 当前实验聚焦于 ≤ 5 秒的剪辑；将方法推广到分钟级视频需更高效的时序建模。
推理粒度 – 基准覆盖了一套预定义的物理与因果规则；真实编辑可能涉及更丰富、领域特定的知识（如流体动力学），而现有 VLM 尚难评估。
作者提出的未来方向 包括：融合多模态推理（音频、深度），与生成器共同训练 VLM 以实现更紧密的对齐，以及通过用户生成的 “wild‑type” 编辑任务扩展 RVE‑Bench。

作者

Xinyu Liu
Hangjie Yuan
Yujie Wei
Jiazheng Xing
Yujin Han
Jiahao Pan
Yanbiao Ma
Chi‑Min Chan
Kang Zhao
Shiwei Zhang
Wenhan Luo
Yike Guo

论文信息

arXiv ID: 2512.09924v1
Categories: cs.CV
Published: December 10, 2025
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 基于矩的 3D Gaussian Splatting：通过无序独立透射解决体积遮挡

3D Gaussian Splatting（3DGS）的最新成功通过实现快速优化和实时渲染高质量辐射，重新塑造了新视角合成。

[Paper] V-RGBX：视频编辑对内在属性的精确控制

大规模视频生成模型在对真实场景的逼真外观和光照交互建模方面展现了显著潜力。然而...

[Paper] Particulate: 前馈 3D 对象关节化

我们提出了 Particulate，这是一种前馈方法，给定单个静态的日常物体 3D 网格，直接推断出其底层结构的所有属性。

[论文] AnchorDream：重新利用 Video Diffusion 用于具身感知的机器人数据合成

大规模且多样化的机器人示范数据的收集仍然是模仿学习的主要瓶颈，因为真实世界的数据获取成本高且 s...