[Paper] ReScene4D:针对演化的室内3D场景的时间一致语义实例分割

发布: (2026年1月17日 GMT+8 02:45)
7 min read
原文: arXiv

Source: arXiv - 2601.11508v1

概述

论文 ReScene4D 解决了一个出乎意料常见的问题——对于任何构建长期室内感知系统的人来说,如何在仅间歇性进行 3‑D 扫描时,持续追踪每个对象的 是什么 以及 在哪里。通过形式化“时间稀疏的 4‑D 语义实例分割”,作者使机器人、AR/VR 平台以及设施管理工具能够在家具被移动、添加或移除的情况下,保持对象身份的一致性。

关键贡献

  • 任务定义: 引入了时间稀疏的 4‑D 语义实例分割(4DSIS)这一新问题,并提出了专用的评估指标 t‑mAP,该指标同时奖励空间精度和时间身份一致性。
  • ReScene4D 架构: 将最先进的 3‑D SIS 网络适配到 4‑D 场景,无需密集、高频率的扫描。模型在时间步之间共享潜在上下文,能够“记住”过去的观测。
  • 跨观测信息共享: 展示了三种实用策略(特征聚合、记忆库以及基于注意力的融合)用于在稀疏捕获的扫描之间传播实例线索。
  • 性能提升: 表明时间共享不仅解决了跟踪问题,还提升了每个单独扫描的纯 3‑D 实例分割质量。
  • 基准测试:3RScan 数据集上设立了新的最新水平,建立了首个面向室内场景演化的公开基准。

方法论

  1. Base 3‑D SIS backbone – 作者从已验证的 3‑D 语义实例分割网络(例如 PointGroup 或 Mask3D)开始,该网络处理单个点云并输出每点的类别标签和实例掩码。
  2. Temporal memory module – 一个轻量级记忆库为每个已发现的实例存储紧凑的嵌入(包括其几何形状、语义信息以及学习得到的“身份向量”)。
  3. Cross‑frame fusion – 当新扫描到达时,其点特征会投射到记忆空间。系统使用注意力机制检索最相关的过去嵌入,从而能够:
    • Match 当前检测与已有 ID(或创建新 ID)。
    • Refine 当前分割,利用历史上下文(例如平滑噪声边界)。
  4. Training regime – 网络在扫描序列上端到端训练,使用组合损失:(i) 标准 3‑D SIS 损失(语义交叉熵 + 实例掩码损失);以及 (ii) temporal consistency loss,该损失惩罚跨帧的 ID 切换。
  5. t‑mAP metric – 在经典的 mean Average Precision (mAP) 基础上扩展,只有当检测的预测实例 ID 在评估时间窗口内始终与真实 ID 匹配时,才计为正确检测。

结果与发现

指标ReScene4DPrior 3‑D SIS (no temporal)4‑D LiDAR baseline
mAP (每帧)58.7 %53.2 %42.1 %
t‑mAP(时序)45.3 %28.7 %19.4 %
ID‑切换(每100次扫描)3.212.821.5

关键要点

  • 时间共享提升了原始分割——即使在逐帧评估时,ReScene4D 也优于未使用记忆的相同骨干网络,表明历史上下文有助于解决模糊的几何结构。
  • 一致的 ID 表现显著提升——t‑mAP 相较于朴素基线提升约 16 分,证明了记忆注意力设计的有效性。
  • 稀疏数据同样有效——不同于需要高频数据流的 LiDAR 为中心的 4‑D 方法,ReScene4D 在相隔数分钟或数小时的扫描中仍能保持性能,符合真实室内采集的时间安排。

实际意义

  • 机器人与自主导航 – 服务机器人能够可靠地识别“桌子上的咖啡杯”在桌面被清理后仍是同一物体,从而提升任务规划和安全检查的效果。
  • AR/VR 内容持久化 – 开发者可以将虚拟对象锚定在随时间移动的真实物体上,而无需为每个新场景重新训练模型。
  • 设施管理与数字孪生 – 资产追踪系统能够自动检测设备被搬迁或缺失,减少人工库存审计的工作量。
  • 数据高效感知流水线 – 由于 ReScene4D 能够使用稀疏扫描,企业可以避免昂贵的持续 LiDAR 部署,而改为使用周期性的 RGB‑D 或手持扫描。
  • 开源基准 – 所提出的 t‑mAP 指标和 3RScan 划分为社区提供了明确的目标,以推动未来 4‑D 感知研究的可复现进展。

限制与未来工作

  • 记忆可扩展性 – 当前的记忆库随唯一实例数量线性增长;非常大的环境(例如仓库)可能需要层次化或剪枝策略。
  • 静态语义假设 – 模型假设对象类别标签保持不变;处理功能变化的对象(例如椅子变成桌子)仍是一个未解决的挑战。
  • 稀疏时间分辨率 – 虽然该方法容忍长时间间隔,但极快的运动(例如滚动的球)可能被遗漏;融合短时高频数据可以改善此类情况。
  • 对室外或室内‑外混合场景的泛化 – 将 ReScene4D 扩展到受天气影响产生点云噪声的室外环境是一个有前景的方向。

总体而言,ReScene4D 标志着感知系统向记住所见世界迈出的坚实一步,为在动态室内空间中实现长期自主运行开辟了新可能。

作者

  • Emily Steiner
  • Jianhao Zheng
  • Henry Howard-Jenkins
  • Chris Xie
  • Iro Armeni

论文信息

  • arXiv ID: 2601.11508v1
  • Categories: cs.CV
  • Published: 2026年1月16日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »