[Paper] Open-Vocabulary 3D 指令歧义检测

发布: (2026年1月10日 GMT+8 02:17)
6 min read
原文: arXiv

Source: arXiv - 2601.05991v1

概览

本文介绍了 开放词汇 3D 指令歧义检测,这是一项全新的任务,要求模型判断在给定的 3D 环境中,自然语言指令是否只能被唯一解释。通过构建 Ambi3D 基准(≈700 场景,约 22 k 条指令)以及名为 AmbiVer 的两阶段检测系统,作者揭示了当前具身 AI 流程中的盲点:它们假设指令毫无歧义并直接执行,这在外科手术、机器人或自主导航等安全关键领域是有风险的。

关键贡献

  • 任务定义 – 正式化“开放词汇 3D 指令歧义检测”,将关注点从执行转向验证。
  • Ambi3D 基准 – 大规模数据集,包含多样的室内/室外 3D 场景和人工编写的指令,每条指令标记为 歧义无歧义
  • 实证差距分析 – 表明最先进的 3D 大语言模型(LLM)和视觉语言模型(VLM)在歧义检测上表现不佳。
  • AmbiVer 框架 – 两阶段流水线,(1) 从场景中收集多视角视觉证据,(2) 将这些证据输入 VLM 以决定是否存在歧义。
  • 开放资源 – 代码、数据和评估脚本公开发布,以实现可重复性并供社区扩展。

方法论

  1. 场景与指令配对 – 每个 3D 场景从多个摄像机视角渲染。人工标注者编写自由形式的指令(例如,“捡起红色瓶子”),并标记该指令是否唯一识别场景中的某个对象/动作。
  2. 基线模型 – 作者测试现有的 3D‑LLM(例如基于 CLIP 的模型、Point‑BERT),这些模型直接接受指令和单一场景表示。
  3. AmbiVer 两阶段设计
    • 证据收集 – 一个轻量级视觉搜索模块采样一组可能满足指令的候选对象/视角,生成一个小型图像块库。
    • VLM 推理 – 预训练的视觉语言模型(例如 BLIP‑2、Flamingo)接收指令以及收集到的视觉证据,并输出二元的“模糊 / 清晰”判断,在评估明确性之前将语言扎根于具体的视觉线索。
  4. 训练与评估 – 在 Ambi3D 训练集上使用交叉熵损失对 VLM 进行微调;通过准确率、精确率/召回率在留出的测试集上衡量性能。

结果与发现

模型准确率 (Ambi3D)
3D‑LLM 基线(单视角)~58 %
VLM 单视角~62 %
AmbiVer(两阶段)78 %
人类上限~92 %
  • 基线困难: 即使是最强的 3D‑LLM,也会误分类近一半的模糊指令,证实当前具身代理在执行前缺乏“自检”机制。
  • 证据重要性: 提供多个视觉视角可使 VLM 性能提升约 10 %(绝对值),表明模糊性往往取决于隐藏物体或遮挡。
  • 错误模式: 大多数失败涉及细微的空间关系(例如“在椅子左侧”)或同义词(例如“vial” 与 “bottle”),暗示未来工作应加强关系推理和词汇映射。

实际意义

  • 安全关键机器人: 在实验室或手术室中,机器人执行交接指令前,歧义检测器可以标记不确定的指令,提示人工操作员进行澄清。
  • 语音控制助理: 智能家居设备可以提出后续问题(“您是指顶部架子上的蓝色杯子吗?”)而不是在模糊指令上直接行动,从而降低用户挫败感。
  • 自主导航: 接收高层目标(“检查塔楼”)的无人机可以验证目标在当前三维地图中是否唯一可辨,以避免浪费飞行。
  • 人机协同 AI: 配备 AmbiVer 的具身代理可以采用“验证后行动”的工作流,提升可信度并符合 AI 安全的监管标准。

限制与未来工作

  • 场景多样性: Ambi3D 主要关注室内、合成环境;真实世界的室外或杂乱场景可能会暴露出新的歧义模式。
  • 语言覆盖: 基准使用英文指令;多语言或特定领域词汇(医学术语、工业术语)尚未测试。
  • 证据收集的可扩展性: 当前的多视角采样是启发式的;在高分辨率、大规模环境中扩展可能会导致延迟。
  • 未来方向: 融合关系图推理、扩展到基于视频的指令,以及探索主动澄清对话是有前景的下一步。

Source:

作者

  • Jiayu Ding
  • Haoran Tang
  • Ge Li

论文信息

  • arXiv ID: 2601.05991v1
  • 分类: cs.AI
  • 出版日期: 2026年1月9日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »