[Paper] OmniRet:高效且高保真全模态检索
发布: (2026年3月3日 GMT+8 01:19)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.02098v1
概览
OmniRet 是首个能够一次性理解并搜索 文本、图像和音频 的检索系统。通过解决计算成本和在压缩多模态数据时细节丢失这两个问题,作者们使通用检索更进一步,接近“用任何东西搜索任何东西”的愿景。
关键贡献
- 真正的全模态检索:支持同时结合文本、视觉、以及音频的组合查询。
- 高效的 token 缩减:引入基于注意力的重采样层,将长的模态特定 token 流转化为紧凑的固定大小嵌入,显著降低推理成本。
- 细粒度池化:提出 Attention Sliced Wasserstein Pooling,保留典型池化方法会丢弃的细微跨模态线索。
- 大规模训练:在约 6 M 查询‑目标对上进行训练,数据来源于 30 个公开数据集,覆盖多种检索场景。
- 新基准 (ACM):发布 Audio‑Centric Multimodal Benchmark,加入了此前套件缺失的组合音频和音视频检索任务。
方法论
- 模态编码器 – 分别的预训练编码器(例如用于视觉的 CLIP、用于音频的 Whisper、用于文本的 BERT‑风格)首先将每个输入转换为一系列 token 嵌入。
- 基于注意力的重新采样 – 与其将完整的 token 序列输入大型语言模型(LLM),不如使用轻量级注意力模块挑选最有信息量的 token 并将其聚合为 固定大小 的表示(例如 256 维)。这使得下游 LLM 的运行成本保持低廉。
- Attention Sliced Wasserstein Pooling(ASWP) – 来自每个模态的紧凑向量通过受 Wasserstein 距离启发的损失进行池化,促使最终嵌入保留原始 token 集的分布特征。实际中,ASWP 类似于一种智能平均,能够保留细粒度模式(例如特定的鸟鸣或微妙的视觉纹理)。
- 联合训练 – 所有组件在对比损失下端到端训练,该损失将匹配的查询‑目标对拉近,同时将不匹配的对拉远。庞大且异构的训练集迫使模型学习一个 通用 的嵌入空间。
结果与发现
| 任务族 | OmniRet vs. SOTA | 显著提升 |
|---|---|---|
| 组合文本‑视觉‑音频查询 | +12 % Recall@10 | 处理 “a dog barking in a park” 风格的查询 |
| 纯音频检索 | +9 % Recall@5 | 更好地捕获时间线索 |
| 视频检索(音视频) | +7 % Recall@10 | 利用声音和帧 |
| 标准文本‑图像检索 | 持平 (±0.3 % Recall) | 尽管容量增加仍无退化 |
新的 ACM 基准确认 OmniRet 独特地解决了此前不支持的 组合音频 和 音视频 检索任务,取得了所有基线中最高的分数。
实际意义
- 搜索引擎 & 数字助理:开发者可以构建“示例搜索”功能,用户可以上传照片、说出短语并输入额外约束——一次性完成查询。
- 内容推荐:平台(例如播客、视频流媒体)可以将用户生成的多模态片段与目录项匹配,提升可发现性。
- 资产管理:媒体团队可以通过混合模态来定位资产(例如“查找警笛声响且红色汽车经过的片段”)。
- 降低基础设施成本:基于注意力的重采样将 token 长度削减 70‑90%,这意味着现有基于 LLM 的流水线可以在无需大规模 GPU 升级的情况下采用 OmniRet。
局限性与未来工作
- 训练数据的可扩展性:虽然 6 M 对数据量已经很大,但模型在数据稀缺的细分领域(例如医学影像 + 听诊音频)仍然表现不足。
- 边缘设备上的延迟:重采样步骤本身轻量,但完整的编码器堆栈(视觉 + 音频 + LLM)在没有进一步量化的情况下仍可能对设备端推理过于沉重。
- 超出三模态的扩展:当前设计假设只有三种模态;若要扩展到触觉、3‑D 点云或传感器流等,需要对架构进行调整。
- 可解释性:用于重采样的注意力图尚未向终端用户公开;未来工作可以展示“为何检索到该结果”,以帮助调试。
OmniRet 为真正的通用检索系统打开了大门,其高效设计使其成为下一代搜索和推荐平台集成的现实候选方案。请关注即将发布的 ACM 基准测试——它们可能会成为衡量全模态理解的新标准。
作者
- Chuong Huynh
- Manh Luong
- Abhinav Shrivastava
论文信息
- arXiv ID: 2603.02098v1
- 分类: cs.IR, cs.CL, cs.CV
- 出版日期: 2026年3月2日
- PDF: 下载 PDF