[论文] XR 环境中 Open-Set Object Detection 的用户提示策略与提示增强方法
发布: (2026年1月31日 GMT+8 02:55)
7 分钟阅读
原文: arXiv
Source: arXiv - 2601.23281v1
概述
开放集目标检测(OSOD)的目标是定位对象 并且 识别何时出现超出已知类别集合的事物。虽然近期的 OSOD 模型在基准数据集上取得了令人印象深刻的成绩,但我们仍然对它们在用户与混合现实(XR)应用交互时的表现知之甚少。本文正是对此进行研究:不同的用户视觉提示表述方式如何影响 OSOD 性能,以及简单的“提示增强”技巧如何使模型在真实 XR 场景中更加可靠。
关键贡献
- Prompt taxonomy for XR – 定义了四种真实的用户提示风格(标准、细节不足、细节过多、实用性模糊)。
- Empirical evaluation on real XR imagery – 对真实 XR 图像进行实证评估——使用视觉语言模型合成多样化提示,测试了两种最先进的 OSOD 模型 GroundingDINO 和 YOLO‑E。
- Prompt‑enhancement techniques – 提出两种轻量级的提示增强方法(语义扩展和基于置信度的过滤),可在推理阶段直接使用,无需重新训练检测器。
- Quantitative robustness analysis – 定量鲁棒性分析表明,模糊提示导致的性能下降最大,而细节不足的提示出乎意料地影响较小。
- Actionable guidelines – 提供可操作的指南,交付具体的提示策略和增强流水线,供 XR 开发者立即采用。
方法论
- Dataset collection – 作者们捕获了一组 XR 截图(混合现实叠加、手持设备视图),其中包含已知物体(例如椅子、笔记本电脑)和真正未知的项目(新颖的装置、装饰道具)。
- Prompt generation – 使用大型视觉语言模型(例如 GPT‑4V),他们自动将每幅图像的真实描述改写为四种提示风格:
- Standard: 简洁、准确的标签列表。
- Underdetailed: 缺少限定词(例如 “chair” 而不是 “red office chair”)。
- Overdetailed: 过于具体的形容词和上下文。
- Ambiguous: 包含模糊术语(“类似桌子的东西”)或矛盾提示。
- OSOD inference – 对每个图像‑提示对同时运行 GroundingDINO(基于定位的检测器)和 YOLO‑E(带未知类头的区域检测器)。
- Prompt‑enhancement pipelines – 测试了两个后处理步骤:
- Semantic expansion – 使用从词汇数据库(WordNet)提取的同义词和上位词丰富提示。
- Confidence‑based filtering – 剔除与提示语义范围冲突的低置信度检测。
- Metrics – 报告了定位的平均交并比(mIoU)、平均检测置信度以及未知类拒绝率。
结果与发现
| Prompt type | Baseline mIoU (GroundingDINO) | Baseline mIoU (YOLO‑E) | After enhancement (best) |
|---|---|---|---|
| Standard | 0.71 | 0.68 | +0.02 (minor) |
| Underdetailed | 0.69 | 0.66 | +0.03 (minor) |
| Overdetailed | 0.58 | 0.65 | +0.12 (仅限 GroundingDINO) |
| Ambiguous | 0.42 | 0.45 | +0.55 mIoU (GroundingDINO) / +0.41 confidence (YOLO‑E) |
- 在细节不足情况下的稳定性 – 当提示省略形容词时,两种模型仍能正确定位对象。
- 对歧义的脆弱性 – 模糊或矛盾的语言会导致 mIoU 下降最高达 30%。
- 细节过多会削弱基于 grounding 的模型 – GroundingDINO 的注意力机制会被过多的限定词分散注意力。
- 提示增强能够挽回性能 – 仅语义扩展就能恢复歧义提示中超过 50% 的损失 mIoU;置信度过滤进一步降低了未知对象的误报。
实际意义
- XR UI 设计师 可以嵌入一个“prompt‑assistant”,在将用户输入的查询(例如,将 “a chair” 扩展为 “chair, any style, indoor”)提交给 OSOD 引擎之前自动展开。
- AR 眼镜开发者 可以在设备上运行轻量级增强管道(仅需几次字典查找和置信阈值),使目标检测对嘈杂的语音指令具有鲁棒性。
- 游戏和训练模拟器 依赖动态场景理解,可以通过应用置信过滤器,安全地忽略未知对象,而无需重新训练检测器。
- 跨平台 SDK(Unity、Unreal)可以提供一个 “PromptStrategy” API,根据交互方式(手势 vs. 语音)选择合适的风格(标准 vs. 细节不足)。
简而言之,研究表明 你不需要新模型 来处理真实世界的 XR 提示——只需对用户的自然语言进行更智能的预处理。
限制与未来工作
- 本研究使用由视觉‑语言模型生成的合成提示变体;真实用户数据(语音转录、键入查询)可能呈现更丰富的错误模式。
- 只评估了两种 OSOD 架构;更新的基于 Transformer 的检测器在过于详细的提示下可能表现不同。
- 提示增强方法依赖外部词汇资源;未探索多语言或领域特定词汇表。
- 未来工作可以将增强直接集成到检测器的注意力模块中,实现提示鲁棒性的端到端学习。
作者
- Junfeng Lin
- Yanming Xiu
- Maria Gorlatova
Paper Information
- arXiv ID: 2601.23281v1
- Categories: cs.CV
- Published: 2026年1月30日
- PDF: Download PDF