[Paper] IntRec：基于意图的检索与对比式细化

发布: 3天前 (2026年2月20日 GMT+8 02:50)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.17639v1

概览

本文介绍了 IntRec，一种交互式目标检索系统，允许用户将视觉模型引导至他们想要的精确物体——尤其在拥挤或模糊的场景中。通过记录用户确认相关的（正向线索）以及被拒绝的（负向约束），IntRec 能够在运行时即时细化预测，而无需额外的训练数据。

关键贡献

Intent State (IS): 一个双记忆结构，存储正锚点（用户批准的对象）和负约束（用户拒绝的对象）。
Contrastive Refinement: 一种排序损失，同时将目标对象拉近正向线索并将负向线索推远，实现细粒度消歧。
Interactive Loop: 一个轻量级反馈机制（每次交互约 30 ms），实时更新 Intent State 并重新排序候选项。
State‑of‑the‑art Performance: 在 LVIS 上，IntRec 达到 35.4 AP，较强基线（OVMR、CoDet、CAKE）提升最高达 +3.7 AP；在 LVIS‑Ambiguous 基准上，仅一次用户纠正即提升 +7.9 AP。
Zero‑Additional Supervision: 系统仅通过用户反馈提升准确率，避免了昂贵的再训练或标注流程。

方法论

Base Detector – IntRec 基于预训练的开放词汇检测器（例如基于 CLIP 的模型），该检测器生成一组候选目标提案及其视觉嵌入。
Intent State Construction – 当用户交互（例如点击“这是正确的车”或“不是那个人”）时，系统将对应提案的嵌入存入 positive set；任何被拒绝的提案则放入 negative set。
Contrastive Alignment Function – 对于每个剩余候选 (c)，系统计算：

[ \text{score}(c) = \frac{1}{|P|}\sum_{p\in P}!! \text{sim}(c,p) ;-; \frac{1}{|N|}\sum_{n\in N}!! \text{sim}(c,n) ]

其中 (P) 与 (N) 分别是正负记忆集合，sim 是在联合视觉‑文本嵌入空间中的余弦相似度。
4. Re‑ranking & Feedback Loop – 根据该分数对候选进行排序，向用户展示 top‑k，循环重复。由于相似度计算是向量点积，每次交互的额外延迟保持在 30 ms 以下。

整个流水线是 model‑agnostic：任何输出嵌入的检测器都可以接入，且 Intent State 可跨会话持久化，实现长期个性化。

结果与发现

Dataset	Baseline (one‑shot)	IntRec (after 1 feedback)	Δ AP
LVIS	32.1 AP	35.4 AP	+3.3
LVIS‑Ambiguous	27.8 AP	35.7 AP	+7.9

速度：每次反馈迭代增加 < 30 ms，使系统适用于交互式 UI/UX。
鲁棒性：对比损失有效抑制视觉相似的干扰物，即使初始查询模糊（“一辆红色车辆”）。
泛化能力：无需额外标注数据；相同的 Intent State 可跨类别使用，展示了方法的可扩展性。

实际意义

Search‑by‑Example UI：开发者可以在照片管理应用、电商平台或视频编辑器中嵌入 IntRec，让用户通过“点击‑并‑细化”来定位特定商品或场景元素。
Robotics & AR：自动机器人或 AR 头显可以向人类操作员请求快速确认（“这是你需要的工具吗？”），并立即缩小感知范围，提高安全性和效率。
Content Moderation：版主可以在大批量图像中迭代排除误报，减少人工审核时间，同时保持高召回率。
Personalized Vision Services：通过为每个用户持久化 Intent State，服务可以学习个人视觉偏好（例如“我最喜欢的运动鞋品牌”），而无需存储显式标签。

所有这些用例都受益于 IntRec 的 低延迟 和 零训练成本 特性，使其成为现有视觉流水线的即插即用升级。

限制与未来工作

内存增长: 双记忆集合随每次交互而增长；作者提出了一种简单的剪枝策略，但可以探索更复杂的内存管理。
对基础检测器质量的依赖: 如果底层检测器未能提出目标对象，则任何反馈都无法恢复。未来的工作可以将提议生成整合到反馈回路中。
用户交互设计: 论文假设二元点击（接受/拒绝）。扩展到更丰富的信号（例如，边界框调整、文本提示）可能进一步提升性能。
对视频的可扩展性: 在时间帧上应用 IntRec 会带来诸如保持一致的意图状态随时间变化的挑战——这是一个开放的研究方向。

作者

Pourya Shamsolmoali
Masoumeh Zareapoor
Eric Granger
Yue Lu

论文信息

arXiv ID: 2602.17639v1
分类: cs.CV
发布时间: 2026年2月19日
PDF: 下载 PDF

[Paper] IntRec：基于意图的检索与对比式细化

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] OpenEarthAgent：用于工具增强的地理空间代理的统一框架

[Paper] 当视觉压倒语言：评估与缓解 VLAs 中的反事实失效

人类水平的 3D 形状感知源于多视图学习

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿