[Paper] UniCorrn:跨 2D 与 3D 的统一对应 Transformer

发布: (2026年5月6日 GMT+8 01:58)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.04044v1

请提供您希望翻译的具体文本内容(例如摘要、引言或全文),我将按照要求将其翻译为简体中文,并保留原始的链接、格式和技术术语。谢谢!

概述

UniCorrn 引入了一个统一的 Transformer 模型,能够在 图像‑到‑图像(2D‑2D)图像‑到‑点云(2D‑3D)点云‑到‑点云(3D‑3D) 数据之间寻找对应关系。通过在这三项任务之间共享权重,论文展示了通用架构能够超越专门的最先进方法,尤其在 2D‑3D 和 3D‑3D 配准基准上表现更佳。

关键贡献

  • 首个统一的对应变换器,能够使用单一参数集处理 2D‑2D、2D‑3D 和 3D‑3D 匹配。
  • 双流解码器,将外观(纹理)特征和位置(几何)特征分离,从而实现精确的跨模态相似度计算。
  • 模态无关的编码器/解码器,基于现有的 2D(CNN)和 3D(PointNet/Transformer)骨干网络构建,便于与常见视觉流水线轻松集成。
  • 在混合数据上联合训练(来自深度图的合成伪点云 + 真实 3D 对应标签),以学习鲁棒的跨模态特征空间。
  • 领先的性能:在 7Scenes(2D‑3D)上的配准召回率提升 +8%,在 3DLoMatch(3D‑3D)上提升 +10%,同时在经典 2D‑2D 基准上保持竞争力。

方法论

  1. Backbone extraction – 分离的特征提取器处理每种输入模态:对 RGB 图像使用 CNN,对 3D 数据使用点云编码器(例如 PointNet++ 或小型 Transformer)。
  2. Shared Transformer encoder – 将提取的 token(图像块 + 点嵌入)拼接后输入标准的 Transformer 编码器。自注意力机制自然地对齐跨模态特征,学习联合相似度度量。
  3. Dual‑stream decoder – 编码完成后,模型分为两个并行流:
    • Appearance stream – 关注纹理/颜色线索(对 2D‑2D 匹配有用)。
    • Positional stream – 强调几何坐标(对 2D‑3D 和 3D‑3D 匹配至关重要)。
      每个流都使用交叉注意力与一组可学习的查询 token 进行交互,这些查询 token 代表我们希望匹配的目标点。
  4. Query‑based correspondence – 对任意源‑目标对,模型接收一小组查询 token(例如源图像中的关键点)。解码器返回目标模态中最相似的 token,从而得到对应关系。
  5. Training strategy – 作者结合:
    • Synthetic pseudo‑point clouds – 从深度图生成的合成伪点云,以提升 2D‑3D 覆盖率。
    • Real 3D‑3D correspondence annotations – 来自 3DLoMatch 等数据集的真实 3D‑3D 对应标注。
      多任务损失(对比损失 + 几何一致性)鼓励共享权重在所有三种匹配任务上同时表现良好。

结果与发现

任务基准指标(Recall @ 5°)相较于之前的SOTA的提升
2D‑2DHPatches竞争性 (≈ 0.85)与专用模型持平
2D‑3D7Scenes0.78+8 %
3D‑3D3DLoMatch0.71+10 %
  • 统一模型 不牺牲精度 于任何单一任务,尽管共享参数。
  • 消融实验表明 双流解码器 为2D‑3D和3D‑3D带来了大部分提升,确认了区分外观和几何的重要性。
  • 使用混合合成/真实数据进行训练可产生 更鲁棒的特征空间,能够推广到未见过的场景和传感器模态。

Practical Implications

  • 简化的流水线 – 开发者不再需要为 SLAM、AR 或机器人维护三个独立的模型;单个 UniCorrn 实例即可处理视觉里程计(2D‑2D)、RGB‑D 位姿估计(2D‑3D)以及点云配准(3D‑3D)。
  • 降低内存和部署成本 – 共享权重意味着整体占用更小,这对边缘设备(例如无人机、AR 眼镜)非常有价值。
  • 更容易的数据收集 – 由于模型可以在混合的合成和真实数据上进行训练,团队可以在不收集大量标注的 3D 点云对应关系的情况下快速启动 2D‑3D 能力。
  • 跨模态研究 – 该架构为未来将图像、点云之外的模态(如 LiDAR‑相机融合或多光谱匹配)混合的研究打开了大门。

限制与未来工作

  • 依赖合成深度的质量 – 伪点云的质量取决于深度估计;噪声深度会削弱 2D‑3D 性能。
  • 对超大点云的可扩展性 – 虽然 Transformer 编码器能够处理适中规模,但极其稠密的 3D 扫描可能需要层次化或稀疏注意力机制。
  • 对动态场景的探索有限 – 当前实验聚焦于静态几何;将 UniCorrn 扩展到处理运动物体或时间一致性仍是一个开放方向。
  • 作者提出的未来工作 包括:集成稀疏注意力 Transformer 以提升可扩展性,添加用于基于视频对应的时间查询流,并通过更丰富的传感器模态(如热成像、雷达)扩展训练集。

作者

  • Prajnan Goswami
  • Tianye Ding
  • Feng Liu
  • Huaizu Jiang

论文信息

  • arXiv ID: 2605.04044v1
  • 分类: cs.CV
  • 发表时间: 2026年5月5日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »