[Paper] OmniRet:高效且高保真全模态检索

发布: (2026年3月3日 GMT+8 01:19)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.02098v1

概览

OmniRet 是首个能够一次性理解并搜索 文本、图像和音频 的检索系统。通过解决计算成本和在压缩多模态数据时细节丢失这两个问题,作者们使通用检索更进一步,接近“用任何东西搜索任何东西”的愿景。

关键贡献

  • 真正的全模态检索:支持同时结合文本、视觉、以及音频的组合查询。
  • 高效的 token 缩减:引入基于注意力的重采样层,将长的模态特定 token 流转化为紧凑的固定大小嵌入,显著降低推理成本。
  • 细粒度池化:提出 Attention Sliced Wasserstein Pooling,保留典型池化方法会丢弃的细微跨模态线索。
  • 大规模训练:在约 6 M 查询‑目标对上进行训练,数据来源于 30 个公开数据集,覆盖多种检索场景。
  • 新基准 (ACM):发布 Audio‑Centric Multimodal Benchmark,加入了此前套件缺失的组合音频和音视频检索任务。

方法论

  1. 模态编码器 – 分别的预训练编码器(例如用于视觉的 CLIP、用于音频的 Whisper、用于文本的 BERT‑风格)首先将每个输入转换为一系列 token 嵌入。
  2. 基于注意力的重新采样 – 与其将完整的 token 序列输入大型语言模型(LLM),不如使用轻量级注意力模块挑选最有信息量的 token 并将其聚合为 固定大小 的表示(例如 256 维)。这使得下游 LLM 的运行成本保持低廉。
  3. Attention Sliced Wasserstein Pooling(ASWP) – 来自每个模态的紧凑向量通过受 Wasserstein 距离启发的损失进行池化,促使最终嵌入保留原始 token 集的分布特征。实际中,ASWP 类似于一种智能平均,能够保留细粒度模式(例如特定的鸟鸣或微妙的视觉纹理)。
  4. 联合训练 – 所有组件在对比损失下端到端训练,该损失将匹配的查询‑目标对拉近,同时将不匹配的对拉远。庞大且异构的训练集迫使模型学习一个 通用 的嵌入空间。

结果与发现

任务族OmniRet vs. SOTA显著提升
组合文本‑视觉‑音频查询+12 % Recall@10处理 “a dog barking in a park” 风格的查询
纯音频检索+9 % Recall@5更好地捕获时间线索
视频检索(音视频)+7 % Recall@10利用声音和帧
标准文本‑图像检索持平 (±0.3 % Recall)尽管容量增加仍无退化

新的 ACM 基准确认 OmniRet 独特地解决了此前不支持的 组合音频音视频 检索任务,取得了所有基线中最高的分数。

实际意义

  • 搜索引擎 & 数字助理:开发者可以构建“示例搜索”功能,用户可以上传照片、说出短语并输入额外约束——一次性完成查询。
  • 内容推荐:平台(例如播客、视频流媒体)可以将用户生成的多模态片段与目录项匹配,提升可发现性。
  • 资产管理:媒体团队可以通过混合模态来定位资产(例如“查找警笛声响且红色汽车经过的片段”)。
  • 降低基础设施成本:基于注意力的重采样将 token 长度削减 70‑90%,这意味着现有基于 LLM 的流水线可以在无需大规模 GPU 升级的情况下采用 OmniRet。

局限性与未来工作

  • 训练数据的可扩展性:虽然 6 M 对数据量已经很大,但模型在数据稀缺的细分领域(例如医学影像 + 听诊音频)仍然表现不足。
  • 边缘设备上的延迟:重采样步骤本身轻量,但完整的编码器堆栈(视觉 + 音频 + LLM)在没有进一步量化的情况下仍可能对设备端推理过于沉重。
  • 超出三模态的扩展:当前设计假设只有三种模态;若要扩展到触觉、3‑D 点云或传感器流等,需要对架构进行调整。
  • 可解释性:用于重采样的注意力图尚未向终端用户公开;未来工作可以展示“为何检索到该结果”,以帮助调试。

OmniRet 为真正的通用检索系统打开了大门,其高效设计使其成为下一代搜索和推荐平台集成的现实候选方案。请关注即将发布的 ACM 基准测试——它们可能会成为衡量全模态理解的新标准。

作者

  • Chuong Huynh
  • Manh Luong
  • Abhinav Shrivastava

论文信息

  • arXiv ID: 2603.02098v1
  • 分类: cs.IR, cs.CL, cs.CV
  • 出版日期: 2026年3月2日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »