Apple 支持的全新 AI 模型可从无声视频中生成声音和语音

发布: 3天前 (2026年2月9日 GMT+8 22:47)

7 分钟阅读

原文: 9to5Mac

Source: 9to5Mac

VSSFlow 演示图像

VSSFlow – 统一音频生成模型

新模型 VSSFlow 采用新颖的架构，在单一统一系统中同时生成声音和语音，提供最先进的效果。

观看（并聆听）以下演示。
演示链接请放在此处（请将占位符替换为实际的视频 URL。）

问题

大多数视频转声音模型（即从无声视频生成音频的模型）难以产生逼真的语音。相反，大多数文本转语音系统因为设计目标不同，无法生成非语音声音。

以往统一这些任务的尝试通常假设联合训练会降低性能。因此，它们采用多阶段流水线，分别教授语音和声音，增加了不必要的复杂性。

研究人员的做法

三位 Apple 研究员联合中国人民大学的六位合作伙伴，推出了 VSSFlow——一个能够从无声视频生成音效和语音的单一 AI 模型。

架构的关键点：

联合训练：语音和声音的训练相互强化，而不是相互干扰。
统一流水线：消除对独立阶段的需求，简化工作流程。
双向收益：语音生成的提升会促进音效生成，反之亦然。

Source: …

解决方案

VSSFlow 利用多种生成式 AI 概念：

音素级标记化 – 将转录文本转换为音素标记序列。
流匹配 – 模型学习从噪声中重建声音，即它被训练为从随机噪声开始，最终得到期望的音频信号。（详细解释请参见此处。）

这些思路在 10 层架构 中结合，将视频和转录信息直接融合到音频生成管道中。最终得到一个能够同时生成音效和语音的单一系统。

关键洞见： 对语音和环境声音进行联合训练 提升了两项任务的性能，而不是相互竞争。

训练数据

数据集	内容
V2S	配有环境声音的静音视频
VisualTTS	配有转录文本的静音说话视频
TTS	标准文本转语音数据

模型在上述混合数据上端到端训练，学习同时生成音效和口语对白。

同时输出的微调

最初，VSSFlow 无法在单个输出中同时产生背景音和口语对白。为了解决这个问题，作者在大量 合成示例 上对预训练模型进行微调，这些示例将语音和环境声音混合在一起（合成数据管道请参见此处。）。该微调让模型学习两种模态的联合声学特性。

VSSFlow: Unifying Video‑conditioned Sound and Speech Generation via Joint Learning
图：VSSFlow 架构

使用 VSSFlow

为了从无声视频中生成音效和语音，VSSFlow 从随机噪声开始，并利用以 10 fps 采样的视频视觉线索来塑造环境声音。同时，所说内容的文字稿为生成的语音提供了精确的指导。

在与仅针对音效或仅针对语音构建的任务特定模型进行对比测试时，VSSFlow 在两项任务上均取得了竞争性的结果，尽管使用的是单一统一系统，但在多个关键指标上仍领先。

VSSFlow: Unifying Video‑conditioned Sound and Speech Generation via Joint Learning

研究人员发布了多个关于音效、语音以及联合生成（来自 Veo3 视频）的演示，以及 VSSFlow 与若干替代模型的对比。您可以在下方观看部分结果，但务必前往演示页面查看全部内容。

注意： 研究人员已在 GitHub 上 开源 VSSFlow 的代码（github.com/vasflow1/vssflow），并正在努力发布模型权重及推理演示。

未来方向（作者原话）

“本工作提出了一种统一的流模型，整合了视频到声音 (V2S) 与视觉文本到语音 (VisualTTS) 任务，建立了视频条件化声音与语音生成的新范式。我们的框架展示了一种有效的条件聚合机制，将语音和视频条件引入 DiT 架构。此外，我们通过分析揭示了声音‑语音联合学习的相互促进效应，凸显了统一生成模型的价值。

对于未来研究，有几个方向值得进一步探索。首先，高质量视频‑语音‑声音数据的稀缺限制了统一生成模型的发展。此外，开发更好的声音和语音表示方法——既能保留语音细节又保持紧凑——是一个关键挑战。”

欲了解更多关于题为 “VSSFlow: Unifying Video‑conditioned Sound and Speech Generation via Joint Learning” 的研究，请点击此链接。

亚马逊配件特惠

FTC：我们使用可产生收入的自动联盟链接。 了解更多

Apple 支持的全新 AI 模型可从无声视频中生成声音和语音

VSSFlow – 统一音频生成模型

问题

研究人员的做法

解决方案

训练数据

同时输出的微调

使用 VSSFlow

未来方向（作者原话）

亚马逊配件特惠

相关文章

[Paper] SurfPhase：稀疏视频中的两相流 3D 界面动力学

[Paper] GENIUS：生成式流体智力评估套件

[论文] PhyCritic：用于物理 AI 的多模态批评模型

[论文] FastFlow：通过Bandit推断加速生成流匹配模型