[Paper] ViSAudio:端到端视频驱动的双耳空间音频生成

发布: (2025年12月3日 GMT+8 02:56)
6 min read
原文: arXiv

Source: arXiv - 2512.03036v1

概览

本文提出了 ViSAudio,这是第一个端到端系统,能够直接从无声视频片段生成双耳(左右)空间音频。通过在全新大规模 BiAudio 数据集(≈97 K 视频‑双耳音频对)上进行训练,作者展示了生成随摄像机和声源一致移动的沉浸式声音是可能的——而此前的两阶段流水线难以实现这一点。

主要贡献

  • 新任务定义:端到端视频驱动的双耳音频生成,去除易出错的单声道‑再空间化流水线。
  • BiAudio 数据集:97 K 真实场景视频‑双耳音频对,涵盖多种场景、摄像机旋转和声源运动,采用半自动收集流水线构建。
  • ViSAudio 架构
    • 双分支条件流匹配网络,学习左右耳的独立潜在流。
    • 条件时空模块,在保持时序一致性的同时保留双耳差异。
  • 全面评估:在客观指标(如 SI‑SDR、ILD/ITD 误差)和主观听感测试上均达到业界领先水平,显示出更优的空间真实感和音质。

方法论

  1. 数据准备 – 作者使用假人头麦克风录制双耳音频,同时捕获同步视频。半自动流水线对齐两种模态并过滤低质量样本,生成 BiAudio 语料库。
  2. 模型设计
    • 双分支流匹配器:ViSAudio 直接预测两个潜在轨迹(每耳一个),而不是先生成单声道波形再进行空间化。流匹配学习将简单的高斯先验一次性转化为复杂的音频分布。
    • 条件时空模块:通过交叉注意将视频特征(外观 + 动作)注入流网络,确保生成的左右声道流与视觉线索(如移动的汽车或转动的摄像机)保持同步。
  3. 训练 – 系统使用似然损失(匹配流)和辅助空间一致性损失的组合进行优化,后者惩罚不匹配的双耳时差/电平差。
  4. 推理 – 给定无声片段,模型在视频条件下采样左右耳的潜在流,然后解码为波形,生成可直接播放的双耳音频轨道。

结果与发现

指标ViSAudio最佳先前方法(单声道 → 空间)
SI‑SDR (dB)13.210.5
ILD MAE (°)1.83.4
ITD MAE (ms)0.120.27
MOS(空间沉浸感)4.33.5
  • 客观提升:更低的双耳电平差和时差误差表明空间线索更为准确。
  • 主观听感测试:参与者一致认为 ViSAudio 的音频更具沉浸感,且与视觉运动对齐更好。
  • 鲁棒性:模型能够适应快速摄像机旋转、移动声源以及多种声学环境(室内、室外、混响空间),且几乎没有可见伪影。

实际意义

  • VR/AR 内容创作 – 开发者可以直接从已有视频素材自动生成逼真的 3‑D 声场,降低现场录音或手动全景混音的成本。
  • 游戏引擎 – 以插件形式集成后,设计师只需提供角色或摄像机动画,即可实时获得同步的双耳音频,提升玩家沉浸感。
  • 可及性 – 双耳音频能够为视障用户提供更好的空间感知,在多媒体应用中提供更丰富的环境线索。
  • 远程协作与远程呈现 – 实时视频流可通过空间音频进行增强,使虚拟会议在无需额外麦克风设置的情况下更具“现场感”。

局限性与未来工作

  • 数据集偏差 – 虽然规模大,BiAudio 仍然以某些场景类型(如户外街道、室内房间)为主,可能未覆盖大型音乐厅等特殊声学条件。
  • 实时性能 – 虽然流匹配推理比两阶段流水线更快,但仍需 GPU 加速;在边缘设备上的优化仍是未解难题。
  • 对未见麦克风装置的泛化 – 模型基于假人头双耳录音进行训练,迁移到其他空间音频格式(如全景声)需要额外研究。
  • 未来方向:作者提出扩充数据集以涵盖更多环境、探索双耳生成中的多声源分离、以及压缩模型以实现设备端部署等。

作者

  • 张梦晨
  • 陈琦
  • 吴彤
  • 刘子涵
  • 林大华

论文信息

  • arXiv ID: 2512.03036v1
  • 分类: cs.CV, cs.AI
  • 发布日期: 2025年12月2日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »