[Paper] IntRec:基于意图的检索与对比式细化

发布: (2026年2月20日 GMT+8 02:50)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.17639v1

概览

本文介绍了 IntRec,一种交互式目标检索系统,允许用户将视觉模型引导至他们想要的精确物体——尤其在拥挤或模糊的场景中。通过记录用户确认相关的(正向线索)以及被拒绝的(负向约束),IntRec 能够在运行时即时细化预测,而无需额外的训练数据。

关键贡献

  • Intent State (IS): 一个双记忆结构,存储正锚点(用户批准的对象)和负约束(用户拒绝的对象)。
  • Contrastive Refinement: 一种排序损失,同时将目标对象拉近正向线索并将负向线索推远,实现细粒度消歧。
  • Interactive Loop: 一个轻量级反馈机制(每次交互约 30 ms),实时更新 Intent State 并重新排序候选项。
  • State‑of‑the‑art Performance: 在 LVIS 上,IntRec 达到 35.4 AP,较强基线(OVMR、CoDet、CAKE)提升最高达 +3.7 AP;在 LVIS‑Ambiguous 基准上,仅一次用户纠正即提升 +7.9 AP。
  • Zero‑Additional Supervision: 系统仅通过用户反馈提升准确率,避免了昂贵的再训练或标注流程。

方法论

  1. Base Detector – IntRec 基于预训练的开放词汇检测器(例如基于 CLIP 的模型),该检测器生成一组候选目标提案及其视觉嵌入。
  2. Intent State Construction – 当用户交互(例如点击“这是正确的车”或“不是那个人”)时,系统将对应提案的嵌入存入 positive set;任何被拒绝的提案则放入 negative set
  3. Contrastive Alignment Function – 对于每个剩余候选 (c),系统计算:

[ \text{score}(c) = \frac{1}{|P|}\sum_{p\in P}!! \text{sim}(c,p) ;-; \frac{1}{|N|}\sum_{n\in N}!! \text{sim}(c,n) ]

其中 (P) 与 (N) 分别是正负记忆集合,sim 是在联合视觉‑文本嵌入空间中的余弦相似度。
4. Re‑ranking & Feedback Loop – 根据该分数对候选进行排序,向用户展示 top‑k,循环重复。由于相似度计算是向量点积,每次交互的额外延迟保持在 30 ms 以下。

整个流水线是 model‑agnostic:任何输出嵌入的检测器都可以接入,且 Intent State 可跨会话持久化,实现长期个性化。

结果与发现

DatasetBaseline (one‑shot)IntRec (after 1 feedback)Δ AP
LVIS32.1 AP35.4 AP+3.3
LVIS‑Ambiguous27.8 AP35.7 AP+7.9
  • 速度:每次反馈迭代增加 < 30 ms,使系统适用于交互式 UI/UX。
  • 鲁棒性:对比损失有效抑制视觉相似的干扰物,即使初始查询模糊(“一辆红色车辆”)。
  • 泛化能力:无需额外标注数据;相同的 Intent State 可跨类别使用,展示了方法的可扩展性。

实际意义

  • Search‑by‑Example UI:开发者可以在照片管理应用、电商平台或视频编辑器中嵌入 IntRec,让用户通过“点击‑并‑细化”来定位特定商品或场景元素。
  • Robotics & AR:自动机器人或 AR 头显可以向人类操作员请求快速确认(“这是你需要的工具吗?”),并立即缩小感知范围,提高安全性和效率。
  • Content Moderation:版主可以在大批量图像中迭代排除误报,减少人工审核时间,同时保持高召回率。
  • Personalized Vision Services:通过为每个用户持久化 Intent State,服务可以学习个人视觉偏好(例如“我最喜欢的运动鞋品牌”),而无需存储显式标签。

所有这些用例都受益于 IntRec 的 低延迟零训练成本 特性,使其成为现有视觉流水线的即插即用升级。

限制与未来工作

  • 内存增长: 双记忆集合随每次交互而增长;作者提出了一种简单的剪枝策略,但可以探索更复杂的内存管理。
  • 对基础检测器质量的依赖: 如果底层检测器未能提出目标对象,则任何反馈都无法恢复。未来的工作可以将提议生成整合到反馈回路中。
  • 用户交互设计: 论文假设二元点击(接受/拒绝)。扩展到更丰富的信号(例如,边界框调整、文本提示)可能进一步提升性能。
  • 对视频的可扩展性: 在时间帧上应用 IntRec 会带来诸如保持一致的意图状态随时间变化的挑战——这是一个开放的研究方向。

作者

  • Pourya Shamsolmoali
  • Masoumeh Zareapoor
  • Eric Granger
  • Yue Lu

论文信息

  • arXiv ID: 2602.17639v1
  • 分类: cs.CV
  • 发布时间: 2026年2月19日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »