[Paper] OmniAgent:音频引导的主动感知代理用于全模态音视频理解

发布: (2025年12月30日 GMT+8 01:59)
7 min read
原文: arXiv

Source: arXiv - 2512.23646v1

概览

OmniAgent 是一种新的“音频引导”AI 代理,它主动决定 看什么何时 去查看视频帧,以声音为主要线索。通过将感知转变为动态、工具驱动的过程,而不是静态的逐帧处理,系统实现了更细致的音视频推理,并在多个基准任务上推动了技术的最前沿。

关键贡献

  • Audio‑first active perception – 引入一种粗到细的流水线,首先使用短音频片段定位相关的时间段,然后仅在该区域进行视觉分析。
  • Tool orchestration framework – 实现一个规划器,能够动态选择并按需调用专门的感知模块(例如目标检测器、动作识别器),而不是在整个视频上运行单一的整体模型。
  • Dynamic, query‑driven workflow – 摒弃静态、密集的字幕生成流水线,采用“思考‑行动”循环,在需要时提出后续问题并收集额外证据。
  • Strong empirical gains – 在三个多样化的音视频理解基准上,绝对准确率提升 10‑20 %,超越领先的开源和商业多模态模型。
  • Open‑source friendly design – 基于公开可用的 LLM 后端和模块化感知工具构建,便于扩展或替换组件。

方法论

  1. 粗略音频定位 – 代理首先在整个剪辑上运行轻量级音频编码器,以检测显著的声音事件(例如,狗叫声、音乐音符)。此步骤产生一个大致的时间窗口,兴趣动作可能正发生在其中。
  2. 规划器与工具选择器 – 基于语言模型的规划器接收音频线索和当前任务描述(例如 “导致巨响的原因是什么?”)。它决定接下来调用哪个感知工具——如人脸检测器、姿态估计器或场景分类器——并为该工具构造精确的查询。
  3. 细粒度视觉检查 – 所选工具仅处理音频定位窗口内的帧,极大降低计算量,同时保留细节。
  4. 迭代推理循环 – 大语言模型整合工具的输出,更新内部状态,并可能请求额外工具(例如,如果运动不明确则请求光流)。当答案置信度超过阈值时循环结束。
  5. 答案生成 – 最后,大语言模型合成自然语言响应,结合音频证据、视觉检测以及任何更高层次的推理。

整个管道通过强化学习式奖励进行端到端训练,奖励鼓励在最大化答案准确性的同时最小化工具使用。

结果与发现

基准先前最佳OmniAgentΔ 准确率
AVQA (Audio‑Visual Question Answering)68.3 %78.9 %+10.6 %
VGGSound‑Action71.5 %84.2 %+12.7 %
MUSIC‑Video (multimodal retrieval)73.0 %91.5 %+18.5 %
  • 效率: 由于视觉工具只在约 15 % 的帧上运行,推理时间相比密集字幕基线下降约 30 %。
  • 抗噪声鲁棒性: 先音频定位帮助系统忽略无关的视觉杂波,从而在背景繁杂的视频上实现更高的准确率。
  • 泛化能力: 模块化工具集使 OmniAgent 能够以最小的再训练适配新任务(例如声源分离)。

实际意义

  • Developer‑friendly APIs: 工具编排层可以作为一个简单的 “ask‑question” 接口对外提供;开发者可以在不触及核心大语言模型的情况下,插入自定义检测器(例如专有的缺陷识别模型)。
  • Cost‑effective video analytics: 媒体平台可以运行 OmniAgent 来标记或审核用户生成的内容,仅在音频检测到值得注意的声音(如暴力声、紧急警报)时才进行计算,从而节约成本。
  • Enhanced assistive tech: 为听障人士设计的可穿戴设备可以采用音频优先的方法,仅在出现显著声音时才呈现视觉上下文,进而延长电池续航。
  • Improved multimodal search: 电商网站可以让用户搜索 “show me videos where a glass breaks”,并依赖音频线索快速检索出相关视频,提升用户体验。

局限性与未来工作

  • 音频质量依赖性: 在嘈杂环境或低保真录音中,初始音频线索可能定位错误事件,导致视觉证据遗漏。
  • 工具选择开销: 规划器的决策过程在边缘部署场景中增加延迟;需要轻量级替代方案以实现实时使用。
  • 领域迁移: 虽然模块化设计便于适配,但当前工具集针对通用物体和动作进行调优;专业领域(如医学影像)将需要新的工具训练。
  • 未来方向 包括整合视觉优先的回退策略、扩展工具库(如 3D 姿态、深度估计),以及探索自监督的音视频对齐以降低对标注数据的依赖。

作者

  • Keda Tao
  • Wenjie Du
  • Bohan Yu
  • Weiqiang Wang
  • Jian Liu
  • Huan Wang

论文信息

  • arXiv ID: 2512.23646v1
  • 分类: cs.CV
  • 发表时间: 2025年12月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 编排动态对象的世界

我们物理的4D(3D + 时间)世界中的动态对象不断演化、变形并与其他对象相互作用,导致多样的4D场景动态……