[Paper] OmniRet：高效且高保真全模态检索

发布: 1天前 (2026年3月3日 GMT+8 01:19)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.02098v1

概览

OmniRet 是首个能够一次性理解并搜索 文本、图像和音频 的检索系统。通过解决计算成本和在压缩多模态数据时细节丢失这两个问题，作者们使通用检索更进一步，接近“用任何东西搜索任何东西”的愿景。

模态编码器 – 分别的预训练编码器（例如用于视觉的 CLIP、用于音频的 Whisper、用于文本的 BERT‑风格）首先将每个输入转换为一系列 token 嵌入。
基于注意力的重新采样 – 与其将完整的 token 序列输入大型语言模型（LLM），不如使用轻量级注意力模块挑选最有信息量的 token 并将其聚合为 固定大小 的表示（例如 256 维）。这使得下游 LLM 的运行成本保持低廉。
Attention Sliced Wasserstein Pooling（ASWP） – 来自每个模态的紧凑向量通过受 Wasserstein 距离启发的损失进行池化，促使最终嵌入保留原始 token 集的分布特征。实际中，ASWP 类似于一种智能平均，能够保留细粒度模式（例如特定的鸟鸣或微妙的视觉纹理）。
联合训练 – 所有组件在对比损失下端到端训练，该损失将匹配的查询‑目标对拉近，同时将不匹配的对拉远。庞大且异构的训练集迫使模型学习一个通用的嵌入空间。

任务族	OmniRet vs. SOTA	显著提升
组合文本‑视觉‑音频查询	+12 % Recall@10	处理 “a dog barking in a park” 风格的查询
纯音频检索	+9 % Recall@5	更好地捕获时间线索
视频检索（音视频）	+7 % Recall@10	利用声音和帧
标准文本‑图像检索	持平 (±0.3 % Recall)	尽管容量增加仍无退化

新的 ACM 基准确认 OmniRet 独特地解决了此前不支持的 组合音频 和 音视频 检索任务，取得了所有基线中最高的分数。

搜索引擎 & 数字助理：开发者可以构建“示例搜索”功能，用户可以上传照片、说出短语并输入额外约束——一次性完成查询。
内容推荐：平台（例如播客、视频流媒体）可以将用户生成的多模态片段与目录项匹配，提升可发现性。
资产管理：媒体团队可以通过混合模态来定位资产（例如“查找警笛声响且红色汽车经过的片段”）。
降低基础设施成本：基于注意力的重采样将 token 长度削减 70‑90%，这意味着现有基于 LLM 的流水线可以在无需大规模 GPU 升级的情况下采用 OmniRet。

OmniRet 为真正的通用检索系统打开了大门，其高效设计使其成为下一代搜索和推荐平台集成的现实候选方案。请关注即将发布的 ACM 基准测试——它们可能会成为衡量全模态理解的新标准。