[论文] XR 环境中 Open-Set Object Detection 的用户提示策略与提示增强方法

发布: 1周前 (2026年1月31日 GMT+8 02:55)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.23281v1

概述

开放集目标检测（OSOD）的目标是定位对象并且识别何时出现超出已知类别集合的事物。虽然近期的 OSOD 模型在基准数据集上取得了令人印象深刻的成绩，但我们仍然对它们在用户与混合现实（XR）应用交互时的表现知之甚少。本文正是对此进行研究：不同的用户视觉提示表述方式如何影响 OSOD 性能，以及简单的“提示增强”技巧如何使模型在真实 XR 场景中更加可靠。

关键贡献

Prompt taxonomy for XR – 定义了四种真实的用户提示风格（标准、细节不足、细节过多、实用性模糊）。
Empirical evaluation on real XR imagery – 对真实 XR 图像进行实证评估——使用视觉语言模型合成多样化提示，测试了两种最先进的 OSOD 模型 GroundingDINO 和 YOLO‑E。
Prompt‑enhancement techniques – 提出两种轻量级的提示增强方法（语义扩展和基于置信度的过滤），可在推理阶段直接使用，无需重新训练检测器。
Quantitative robustness analysis – 定量鲁棒性分析表明，模糊提示导致的性能下降最大，而细节不足的提示出乎意料地影响较小。
Actionable guidelines – 提供可操作的指南，交付具体的提示策略和增强流水线，供 XR 开发者立即采用。

方法论

Dataset collection – 作者们捕获了一组 XR 截图（混合现实叠加、手持设备视图），其中包含已知物体（例如椅子、笔记本电脑）和真正未知的项目（新颖的装置、装饰道具）。
Prompt generation – 使用大型视觉语言模型（例如 GPT‑4V），他们自动将每幅图像的真实描述改写为四种提示风格：
- Standard: 简洁、准确的标签列表。
- Underdetailed: 缺少限定词（例如 “chair” 而不是 “red office chair”）。
- Overdetailed: 过于具体的形容词和上下文。
- Ambiguous: 包含模糊术语（“类似桌子的东西”）或矛盾提示。
OSOD inference – 对每个图像‑提示对同时运行 GroundingDINO（基于定位的检测器）和 YOLO‑E（带未知类头的区域检测器）。
Prompt‑enhancement pipelines – 测试了两个后处理步骤：
- Semantic expansion – 使用从词汇数据库（WordNet）提取的同义词和上位词丰富提示。
- Confidence‑based filtering – 剔除与提示语义范围冲突的低置信度检测。
Metrics – 报告了定位的平均交并比（mIoU）、平均检测置信度以及未知类拒绝率。

结果与发现

Prompt type	Baseline mIoU (GroundingDINO)	Baseline mIoU (YOLO‑E)	After enhancement (best)
Standard	0.71	0.68	+0.02 (minor)
Underdetailed	0.69	0.66	+0.03 (minor)
Overdetailed	0.58	0.65	+0.12 (仅限 GroundingDINO)
Ambiguous	0.42	0.45	+0.55 mIoU (GroundingDINO) / +0.41 confidence (YOLO‑E)

在细节不足情况下的稳定性 – 当提示省略形容词时，两种模型仍能正确定位对象。
对歧义的脆弱性 – 模糊或矛盾的语言会导致 mIoU 下降最高达 30%。
细节过多会削弱基于 grounding 的模型 – GroundingDINO 的注意力机制会被过多的限定词分散注意力。
提示增强能够挽回性能 – 仅语义扩展就能恢复歧义提示中超过 50% 的损失 mIoU；置信度过滤进一步降低了未知对象的误报。

实际意义

XR UI 设计师 可以嵌入一个“prompt‑assistant”，在将用户输入的查询（例如，将 “a chair” 扩展为 “chair, any style, indoor”）提交给 OSOD 引擎之前自动展开。
AR 眼镜开发者 可以在设备上运行轻量级增强管道（仅需几次字典查找和置信阈值），使目标检测对嘈杂的语音指令具有鲁棒性。
游戏和训练模拟器 依赖动态场景理解，可以通过应用置信过滤器，安全地忽略未知对象，而无需重新训练检测器。
跨平台 SDK（Unity、Unreal）可以提供一个 “PromptStrategy” API，根据交互方式（手势 vs. 语音）选择合适的风格（标准 vs. 细节不足）。

简而言之，研究表明 你不需要新模型 来处理真实世界的 XR 提示——只需对用户的自然语言进行更智能的预处理。

限制与未来工作

本研究使用由视觉‑语言模型生成的合成提示变体；真实用户数据（语音转录、键入查询）可能呈现更丰富的错误模式。
只评估了两种 OSOD 架构；更新的基于 Transformer 的检测器在过于详细的提示下可能表现不同。
提示增强方法依赖外部词汇资源；未探索多语言或领域特定词汇表。
未来工作可以将增强直接集成到检测器的注意力模块中，实现提示鲁棒性的端到端学习。

作者

Junfeng Lin
Yanming Xiu
Maria Gorlatova

Paper Information

arXiv ID: 2601.23281v1
Categories: cs.CV
Published: 2026年1月30日
PDF: Download PDF

[论文] XR 环境中 Open-Set Object Detection 的用户提示策略与提示增强方法

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

Paper Information

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[Paper] 去噪深空：基于物理的 CCD 噪声形成用于天文成像

[Paper] PaperBanana：为 AI 科学家自动化学术插图

[论文] 无训练的测试时适应与 Brownian Distance Covariance 在视觉语言模型中的应用