[Paper] ViSAudio：端到端视频驱动的双耳空间音频生成

发布: 2个月前 (2025年12月3日 GMT+8 02:56)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.03036v1

概览

本文提出了 ViSAudio，这是第一个端到端系统，能够直接从无声视频片段生成双耳（左右）空间音频。通过在全新大规模 BiAudio 数据集（≈97 K 视频‑双耳音频对）上进行训练，作者展示了生成随摄像机和声源一致移动的沉浸式声音是可能的——而此前的两阶段流水线难以实现这一点。

主要贡献

新任务定义：端到端视频驱动的双耳音频生成，去除易出错的单声道‑再空间化流水线。
BiAudio 数据集：97 K 真实场景视频‑双耳音频对，涵盖多种场景、摄像机旋转和声源运动，采用半自动收集流水线构建。
ViSAudio 架构：
- 双分支条件流匹配网络，学习左右耳的独立潜在流。
- 条件时空模块，在保持时序一致性的同时保留双耳差异。
全面评估：在客观指标（如 SI‑SDR、ILD/ITD 误差）和主观听感测试上均达到业界领先水平，显示出更优的空间真实感和音质。

方法论

数据准备 – 作者使用假人头麦克风录制双耳音频，同时捕获同步视频。半自动流水线对齐两种模态并过滤低质量样本，生成 BiAudio 语料库。
模型设计 –
- 双分支流匹配器：ViSAudio 直接预测两个潜在轨迹（每耳一个），而不是先生成单声道波形再进行空间化。流匹配学习将简单的高斯先验一次性转化为复杂的音频分布。
- 条件时空模块：通过交叉注意将视频特征（外观 + 动作）注入流网络，确保生成的左右声道流与视觉线索（如移动的汽车或转动的摄像机）保持同步。
训练 – 系统使用似然损失（匹配流）和辅助空间一致性损失的组合进行优化，后者惩罚不匹配的双耳时差/电平差。
推理 – 给定无声片段，模型在视频条件下采样左右耳的潜在流，然后解码为波形，生成可直接播放的双耳音频轨道。

结果与发现

指标	ViSAudio	最佳先前方法（单声道 → 空间）
SI‑SDR (dB)	13.2	10.5
ILD MAE (°)	1.8	3.4
ITD MAE (ms)	0.12	0.27
MOS（空间沉浸感）	4.3	3.5

客观提升：更低的双耳电平差和时差误差表明空间线索更为准确。
主观听感测试：参与者一致认为 ViSAudio 的音频更具沉浸感，且与视觉运动对齐更好。
鲁棒性：模型能够适应快速摄像机旋转、移动声源以及多种声学环境（室内、室外、混响空间），且几乎没有可见伪影。

实际意义

VR/AR 内容创作 – 开发者可以直接从已有视频素材自动生成逼真的 3‑D 声场，降低现场录音或手动全景混音的成本。
游戏引擎 – 以插件形式集成后，设计师只需提供角色或摄像机动画，即可实时获得同步的双耳音频，提升玩家沉浸感。
可及性 – 双耳音频能够为视障用户提供更好的空间感知，在多媒体应用中提供更丰富的环境线索。
远程协作与远程呈现 – 实时视频流可通过空间音频进行增强，使虚拟会议在无需额外麦克风设置的情况下更具“现场感”。

局限性与未来工作

数据集偏差 – 虽然规模大，BiAudio 仍然以某些场景类型（如户外街道、室内房间）为主，可能未覆盖大型音乐厅等特殊声学条件。
实时性能 – 虽然流匹配推理比两阶段流水线更快，但仍需 GPU 加速；在边缘设备上的优化仍是未解难题。
对未见麦克风装置的泛化 – 模型基于假人头双耳录音进行训练，迁移到其他空间音频格式（如全景声）需要额外研究。
未来方向：作者提出扩充数据集以涵盖更多环境、探索双耳生成中的多声源分离、以及压缩模型以实现设备端部署等。

作者

张梦晨
陈琦
吴彤
刘子涵
林大华

论文信息

arXiv ID: 2512.03036v1
分类: cs.CV, cs.AI
发布日期: 2025年12月2日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

视觉语言模型（VLMs）在视觉问答（VQA）中取得了强劲的表现，但它们仍受限于静态的训练数据。检索…

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

Grounding 是构建图形用户界面 (GUI) 代理的基本能力。虽然现有方法依赖于大规模的 bounding box 监督……

[Paper] 测量背景对用于自动驾驶感知的深度学习中分类和特征重要性的影响

常见的可解释人工智能（XAI）在深度学习中的方法侧重于分析给定模型中输入特征对分类任务的重要性：saliency maps……