[论文] LTX-2：高效联合音频-视觉基础模型

发布: 1个月前 (2026年1月7日 GMT+8 02:24)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.03233v1

概览

LTX‑2 是一个开源的大规模基础模型，能够从单一文本提示生成 同步的视频和音频。通过将一个 14 B 参数的视频 Transformer 与一个 5 B 参数的音频 Transformer 通过交叉注意力相结合，系统能够生成电影级质量的片段，配乐能够跟随角色、环境和情感——这是当今的文本到视频扩散模型所缺乏的。

关键贡献

统一视听扩散架构：非对称双流 Transformer（视频 ≫ 音频），通过双向交叉注意力和共享时间步条件连接。
模态感知的无分类器引导（modality‑CFG）：让用户在运行时平衡视觉保真度与音频保真度。
多语言文本编码器：将提示理解范围扩展至英语之外。
高效的训练与推理：以专有系统一小部分计算成本实现业界领先的质量。
开源发布：完整模型权重、训练脚本和推理流水线均公开可用。

方法论

Dual‑stream transformer – 两个独立的 transformer 堆栈分别处理视频和音频 token。视频流（14 B 参数）承担大部分容量，因为视觉生成更耗算力；音频流（5 B）专注于高保真声音。
Cross‑modal attention – 在每个扩散时间步，视频 token 会关注音频 token，反之亦然，使模型能够对齐唇形动作、环境音以及音乐线索。时间位置嵌入确保注意力遵循帧和音频采样的时间顺序。
Shared timestep conditioning – 两个流通过 AdaLN（自适应层归一化）模块接收相同的扩散时间步嵌入，保证视频和音频同步演进。
Multilingual text encoder – 预训练的多语言编码器（例如 XLM‑R）将用户提示转换为语言无关的嵌入，驱动两个流。
Modality‑CFG – 将 classifier‑free guidance 扩展为对视频和音频分别使用不同的引导尺度，提供开发者对视觉细节与音频真实感之间权衡的细粒度控制。

训练使用大规模精心策划的配对视频‑音频剪辑数据集（约 2 M 条样本），对两种模态共同施加扩散噪声调度。损失为视频和音频重建误差的加权和，促进紧密的视听耦合。

结果与发现

定量: LTX‑2 在标准视听指标（例如视频的 FVD、声音的 Fréchet Audio Distance）上优于所有开源基线，并将与商业系统的差距平均缩小约 15 %。
定性: 生成的片段呈现出与屏幕唇形匹配的连贯语音、逼真的环境音（雨声、人群喧哗）以及与视觉氛围相符的风格化音效提示（例如恐怖风格的嗡鸣声）。
效率: 推理时间约为可比专有模型的 2 倍更快，得益于非对称设计，GPU 内存使用量降低约 30 %。
控制: Modality‑CFG 使用户能够在保持音频可懂的前提下优先保证视觉保真度（例如清晰的动作场景），或在以音频为中心的应用（如播客视频生成）中相反地优先音频。

实际意义

Content creation pipelines – 视频编辑者和独立开发者可以生成完整的视频广告、解释性短片或游戏过场动画，而无需雇佣专门的配音演员或音效设计师。
Multilingual media – 多语言编码器使得制作带有本土语言旁白和符合文化的音景的本地化视频变得轻松。
Rapid prototyping – 团队可以通过更换提示词迭代分镜，并即时看到同步的视听效果，从而缩短前期制作时间。
Accessibility tools – 为视障人士自动生成描述性音轨在大规模上变得可行。
Edge deployment – 由于模型计算更高效，可对其进行微调或蒸馏，以用于设备端应用（例如，具备实时视听合成的 AR/VR 体验）。

限制与未来工作

音频保真度上限 – 虽然令人印象深刻，但5 B音频流在细腻的韵律和高频细节方面仍落后于专用语音合成模型。
数据集偏差 – 训练数据偏向西方媒体；涉及非西方文化背景的提示有时会产生不匹配的音效。
时长限制 – 当前实现能处理约10秒的片段；更长的叙事需要片段拼接或层次扩散。
未来方向：作者提出的包括扩大音频流规模、加入显式音乐生成模块，以及扩展模型以支持交互式条件（例如实时用户草图）。

LTX‑2 展示了单一、精心构建的基础模型能够弥合视频生成与音频合成之间长期存在的鸿沟，为开发者提供了构建更丰富、更沉浸式媒体体验的新途径，并大幅降低手动工作量。

作者

Yoav HaCohen
Benny Brazowski
Nisan Chiprut
Yaki Bitterman
Andrew Kvochko
Avishai Berkowitz
Daniel Shalem
Daphna Lifschitz
Dudu Moshe
Eitan Porat
Eitan Richardson
Guy Shiran
Itay Chachy
Jonathan Chetboun
Michael Finkelson
Michael Kupchick
Nir Zabari
Nitzan Guetta
Noa Kotler
Ofir Bibi
Ori Gordon
Poriya Panet
Roi Benita
Shahar Armon
Victor Kulikov
Yaron Inger
Yonatan Shiftan
Zeev Melumian
Zeev Farbman

论文信息

arXiv ID: 2601.03233v1
分类: cs.CV
出版时间: 2026年1月6日
PDF: 下载 PDF

[论文] LTX-2：高效联合音频-视觉基础模型

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Deepfake 检测器是 DUMB：一个用于评估在可转移性约束下 adversarial training 鲁棒性的基准

[Paper] 自适应条件对比无关可变形图像配准与不确定性估计

[Paper] VideoAR：自回归视频生成通过下一帧与尺度预测

[Paper] WaveRNet: 小波引导的频率学习用于多源域通用视网膜血管分割