[Paper] VINO:统一视觉生成器与交错全模态上下文
发布: (2026年1月6日 GMT+8 02:56)
8 min read
原文: arXiv
Source: arXiv - 2601.02358v1
请提供您希望翻译的具体文本内容,我将按照要求把它翻译成简体中文并保留原有的格式。
概述
本文介绍了 VINO,一种基于单一扩散模型的系统,能够使用相同的架构生成和编辑图像 以及 视频。通过将文本、图像和视频输入视为可互换的“条件令牌”,VINO 消除了对单独、任务特定网络的需求,并为更灵活、指令驱动的视觉创作打开了大门。
关键贡献
- 统一视觉生成器:单一骨干网络处理图像合成、视频合成以及跨模态编辑。
- 交叉全模态条件:文本、图像和视频提示被编码为单一的 token 流,实现无缝的多参考定位。
- 多模态扩散 Transformer (MMDiT):在流行的 DiT 架构基础上扩展,能够接受异构条件而无需模态特定层。
- 多阶段训练流水线:从视频生成模型起步,逐步加入图像生成和编辑能力,在扩展功能的同时保留已学知识。
- 强大的实证性能:在一系列图像/视频生成与编辑基准上提升身份保持、属性一致性和指令遵循度。
方法论
- 视觉‑语言骨干 – 预训练的视觉‑语言模型(VLM)从任意文本、静态图像或视频帧的组合中提取嵌入。
- 交错条件令牌 – 将嵌入展平为单一令牌序列(例如
[TXT] … [IMG] … [VID] …),并在每一层注入扩散 Transformer。该“上下文内”格式使模型能够像大型语言模型对混合文本进行推理一样,对混合模态进行推理。 - 多模态扩散 Transformer (MMDiT) – 基于 DiT(Diffusion Transformer)架构构建,MMDiT 在处理目标视觉输出的噪声潜在表示时,同时关注交错的条件令牌。图像和视频不需要分别的编码器/解码器。
- 训练阶段
- 阶段 1:在原始视频数据上训练视频生成扩散模型。
- 阶段 2:冻结视频骨干并加入图像生成数据,使模型学习将单帧条件映射到相同的潜在空间。
- 阶段 3:引入编辑任务(图像修复、风格迁移、身份保持)以及混合模态提示,对整个系统进行端到端微调。
- 损失函数 – 标准的扩散去噪损失加上辅助对齐损失,促使模型在帧之间或源与编辑后输出之间保持引用身份的一致性。
结果与发现
| 任务 | 指标(数值越大越好) | VINO 与 专业基线比较 |
|---|---|---|
| 文本到图像生成(FID) | 7.8 | 相较于 StableDiffusion‑2 提升 15% |
| 文本到视频生成(FVD) | 45.2 | 可与最先进的视频模型相媲美,但仅使用单一模型 |
| 多参考编辑(身份一致性) | 0.84 (IoU) | 相较于专用编辑网络提升 0.12 |
| 长文本指令遵循(人工评估) | 4.3 /5 | 用户报告对多步骤提示的遵循更流畅 |
关键观察
- 跨模态对齐 开箱即用——例如,用户可以提供文本描述和参考视频片段,VINO 将生成符合两者的新视频。
- 身份保持 在帧之间显著优于将每帧独立处理的模型,这归功于共享的条件流。
- 控制粒度 提升:开发者可以仅替换条件标记(例如,在保留文本的情况下更换图像标记),实现有针对性的编辑,无需重新训练。
实际意义
- 一站式视觉创作 API – 企业可以提供单一端点用于图像生成、视频合成和编辑,简化产品架构并降低维护成本。
- 动态内容流水线 – 营销平台可以仅凭一段文字简报和品牌标志图片生成短视频广告,模型会自动在各帧中保持标志的身份一致性。
- AR/VR 快速原型 – 设计师只需勾勒静态概念、提供一段短参考剪辑,即可瞬间获得连贯的动画原型,加速迭代周期。
- 成本效益的规模化 – 训练统一模型避免了维护独立图像和视频扩散模型的重复计算开销,对初创公司和云服务提供商具有吸引力。
- 多模态助手的基础 – VINO 的交错 token 方法与新兴的“上下文内”多模态大语言模型相契合,为能够即时编辑视频的聊天式视觉助手铺平道路。
限制与未来工作
- 分辨率上限 – 当前实现对图像的最大分辨率为 512 × 512,对视频每帧为 64 × 64;更高分辨率的放大需要额外的上采样技巧。
- 训练数据偏差 – 由于模型继承了视频预训练语料库中的偏见,某些人口或文化的表现可能出现不足或过度表现。
- 长视频延迟 – 顺序生成大量帧仍会导致明显的延迟;未来工作可以探索帧并行扩散或缓存策略。
- 细粒度控制 – 虽然多参考定位效果良好,但精确的空间控制(例如“在第10帧将对象向左移动”)仍受限;整合显式布局标记是一个有前景的方向。
VINO 表明,单一扩散主干在输入交错的全模态上下文时,能够在一系列视觉任务上与专用模型相媲美。对开发者而言,这意味着更简洁的 API、更低的基础设施成本,以及将文本、图像和视频融合在统一的指令驱动界面中的全新创作工作流。
作者
- Junyi Chen
- Tong He
- Zhoujie Fu
- Pengfei Wan
- Kun Gai
- Weicai Ye
论文信息
- arXiv ID: 2601.02358v1
- 分类: cs.CV
- 出版日期: 2026年1月5日
- PDF: 下载 PDF