[Paper] 从音频学习视觉可供性
发布: (2025年12月2日 GMT+8 02:58)
6 min read
原文: arXiv
Source: arXiv - 2512.02005v1
概览
本文提出了 音视可供性定位 (Audio‑Visual Affordance Grounding, AV‑AG),这是一项新任务,模型仅凭动作的声音即可定位对象上正在交互的精确区域。通过利用音频作为线索,方法避免了文本指令的歧义以及基于视频的方法常见的遮挡问题,为实时多模态感知开辟了新途径。
主要贡献
- 新任务定义:AV‑AG,基于动作声音而非文本或视频对交互区域进行分割。
- 首个数据集:超过 10 K 张对象图像,配有高质量的动作音频记录和像素级可供性掩码,并提供未见分割用于零样本评估。
- AVAGFormer 模型:一种基于 Transformer 的架构,包含 语义条件跨模态混合器 和 双头解码器,高效融合音频与视觉流。
- 领先的实验结果:AVAGFormer 超越了相关音视分割 (AVS) 与多模态定位任务的强基线。
- 开源发布:代码、预训练权重和数据集均公开,可促进可复现性和后续研究。
方法论
- 数据预处理 – 将音频片段转换为对数梅尔谱图;图像进行缩放和归一化。
- 特征提取 – 使用独立的编码器(图像的 CNN、谱图的轻量级音频 Transformer)生成模态特定的嵌入。
- 语义条件跨模态混合器 – 音频嵌入生成一组查询向量,去关注视觉 token,实质上“告诉”视觉流基于声音语义应在哪里寻找。
- 双头解码器
- 掩码头:在原始图像分辨率上预测二值可供性掩码。
- 分类头:输出粗粒度的可供性类别(如 “抓取”、 “切割”),用于指导掩码细化。
- 训练 – 采用二元交叉熵(掩码)和交叉熵(类别)损失的组合,外加对齐音视对的辅助对比损失,端到端优化。
整个流水线在一次前向传播中完成,适用于实时应用。
结果与发现
| 模型 | mIoU(已见) | mIoU(未见) |
|---|---|---|
| 基线 (AVS‑ResNet) | 42.3% | 35.1% |
| AVAGFormer(完整) | 58.7% | 49.4% |
| AVAGFormer(无语义混合器) | 53.2% | 44.0% |
| AVAGFormer(单头) | 55.1% | 46.3% |
- 相较于现有音视分割基线 提升约 16% mIoU。
- 语义条件混合器贡献最大性能提升,验证了音频语义对精确定位至关重要。
- 零样本结果表明模型能够在未见的对象‑声音配对上泛化,得益于共享的音频嵌入空间。
- 消融实验显示,端到端训练比两阶段流水线(特征提取 → 掩码预测)提升约 3–4% mIoU。
实际意义
- 机器人与人机交互 (Robotics & HRI):机器人仅通过聆听人类的动作声音即可推断在哪里与工具或物体交互(例如 “切割” → 定位刀刃)。
- AR/VR 交互:音频线索可触发上下文感知的叠加(如用户说 “抓住” 时高亮把手),无需显式手部追踪。
- 辅助技术:为视障用户提供的设备可利用环境声音在可穿戴显示器上突出附近物体的可操作区域。
- 智能制造:对装配线的音频监控可自动检测部件错位,通过检测不匹配的可供性区域进行报警。
- 内容创作:视频编辑者可基于伴随的配乐自动掩码交互区域,以用于特效或字幕,降低手工描摹工作量。
由于模型在一次前向传播中即可运行(在现代 GPU 上约 30 FPS),将其集成到实时流水线是可行的。
局限性与未来工作
- 音频质量依赖:嘈杂环境会削弱性能;当前数据集假设录音相对干净。
- 可供性类别受限:仅覆盖少数交互类型,需扩展到更细粒度的动作(如 “扭转”、 “按压”)。
- 仅限静态图像:未建模时间动态(如移动物体),将 AVAGFormer 拓展至视频流可捕获随时间变化的可供性。
- 跨模态偏差:模型可能过度依赖显著的音频线索而忽视细微的视觉提示;未来可探索更平衡的注意力机制。
作者计划通过加入嘈杂的真实录音、扩大可供性标签集,并尝试联合处理视频与音频的多模态 Transformer 来丰富数据集并提升模型能力。
作者
- Lidong Lu
- Guo Chen
- Zhu Wei
- Yicheng Liu
- Tong Lu
论文信息
- arXiv ID: 2512.02005v1
- 分类: cs.CV
- 发表时间: 2025年12月1日
- PDF: Download PDF