[Paper] ViSAudio:端到端视频驱动的双耳空间音频生成
发布: (2025年12月3日 GMT+8 02:56)
6 min read
原文: arXiv
Source: arXiv - 2512.03036v1
概览
本文提出了 ViSAudio,这是第一个端到端系统,能够直接从无声视频片段生成双耳(左右)空间音频。通过在全新大规模 BiAudio 数据集(≈97 K 视频‑双耳音频对)上进行训练,作者展示了生成随摄像机和声源一致移动的沉浸式声音是可能的——而此前的两阶段流水线难以实现这一点。
主要贡献
- 新任务定义:端到端视频驱动的双耳音频生成,去除易出错的单声道‑再空间化流水线。
- BiAudio 数据集:97 K 真实场景视频‑双耳音频对,涵盖多种场景、摄像机旋转和声源运动,采用半自动收集流水线构建。
- ViSAudio 架构:
- 双分支条件流匹配网络,学习左右耳的独立潜在流。
- 条件时空模块,在保持时序一致性的同时保留双耳差异。
- 全面评估:在客观指标(如 SI‑SDR、ILD/ITD 误差)和主观听感测试上均达到业界领先水平,显示出更优的空间真实感和音质。
方法论
- 数据准备 – 作者使用假人头麦克风录制双耳音频,同时捕获同步视频。半自动流水线对齐两种模态并过滤低质量样本,生成 BiAudio 语料库。
- 模型设计 –
- 双分支流匹配器:ViSAudio 直接预测两个潜在轨迹(每耳一个),而不是先生成单声道波形再进行空间化。流匹配学习将简单的高斯先验一次性转化为复杂的音频分布。
- 条件时空模块:通过交叉注意将视频特征(外观 + 动作)注入流网络,确保生成的左右声道流与视觉线索(如移动的汽车或转动的摄像机)保持同步。
- 训练 – 系统使用似然损失(匹配流)和辅助空间一致性损失的组合进行优化,后者惩罚不匹配的双耳时差/电平差。
- 推理 – 给定无声片段,模型在视频条件下采样左右耳的潜在流,然后解码为波形,生成可直接播放的双耳音频轨道。
结果与发现
| 指标 | ViSAudio | 最佳先前方法(单声道 → 空间) |
|---|---|---|
| SI‑SDR (dB) | 13.2 | 10.5 |
| ILD MAE (°) | 1.8 | 3.4 |
| ITD MAE (ms) | 0.12 | 0.27 |
| MOS(空间沉浸感) | 4.3 | 3.5 |
- 客观提升:更低的双耳电平差和时差误差表明空间线索更为准确。
- 主观听感测试:参与者一致认为 ViSAudio 的音频更具沉浸感,且与视觉运动对齐更好。
- 鲁棒性:模型能够适应快速摄像机旋转、移动声源以及多种声学环境(室内、室外、混响空间),且几乎没有可见伪影。
实际意义
- VR/AR 内容创作 – 开发者可以直接从已有视频素材自动生成逼真的 3‑D 声场,降低现场录音或手动全景混音的成本。
- 游戏引擎 – 以插件形式集成后,设计师只需提供角色或摄像机动画,即可实时获得同步的双耳音频,提升玩家沉浸感。
- 可及性 – 双耳音频能够为视障用户提供更好的空间感知,在多媒体应用中提供更丰富的环境线索。
- 远程协作与远程呈现 – 实时视频流可通过空间音频进行增强,使虚拟会议在无需额外麦克风设置的情况下更具“现场感”。
局限性与未来工作
- 数据集偏差 – 虽然规模大,BiAudio 仍然以某些场景类型(如户外街道、室内房间)为主,可能未覆盖大型音乐厅等特殊声学条件。
- 实时性能 – 虽然流匹配推理比两阶段流水线更快,但仍需 GPU 加速;在边缘设备上的优化仍是未解难题。
- 对未见麦克风装置的泛化 – 模型基于假人头双耳录音进行训练,迁移到其他空间音频格式(如全景声)需要额外研究。
- 未来方向:作者提出扩充数据集以涵盖更多环境、探索双耳生成中的多声源分离、以及压缩模型以实现设备端部署等。
作者
- 张梦晨
- 陈琦
- 吴彤
- 刘子涵
- 林大华
论文信息
- arXiv ID: 2512.03036v1
- 分类: cs.CV, cs.AI
- 发布日期: 2025年12月2日
- PDF: Download PDF