[Paper] UniCorrn: 2D와 3D를 아우르는 Unified Correspondence Transformer
Source: arXiv - 2605.04044v1
개요
UniCorrn은 이미지‑대‑이미지 (2D‑2D), 이미지‑대‑포인트 클라우드 (2D‑3D), 그리고 포인트 클라우드‑대‑포인트 클라우드 (3D‑3D) 데이터 간의 대응 관계를 찾을 수 있는 단일 통합 Transformer 모델을 소개합니다. 이 세 작업에 걸쳐 가중치를 공유함으로써, 논문에서는 공통 아키텍처가 특히 2D‑3D 및 3D‑3D 정합 벤치마크에서 특화된 최신 방법들을 능가할 수 있음을 보여줍니다.
주요 기여
- 첫 번째 통합 대응 변환기로, 단일 파라미터 집합만으로 2D‑2D, 2D‑3D, 3D‑3D 매칭을 모두 수행합니다.
- 듀얼‑스트림 디코더는 외관(텍스처) 특징과 위치(기하) 특징을 별도로 유지하여 정확한 교차‑모달 유사도 계산을 가능하게 합니다.
- 모달리티에 구애받지 않는 인코더/디코더는 기존 2D(CNN)와 3D(PointNet/Transformer) 백본 위에 구축되어 일반적인 비전 파이프라인에 손쉽게 통합할 수 있습니다.
- 혼합 데이터에 대한 공동 학습(깊이 맵에서 생성된 합성 의사‑포인트 클라우드 + 실제 3D 대응 라벨)으로 강인하고 교차‑모달 특징 공간을 학습합니다.
- 최첨단 성능: 7Scenes(2D‑3D)에서 등록 재현율이 +8 % 향상되고, 3DLoMatch(3D‑3D)에서 +10 % 향상되었으며, 기존 2D‑2D 벤치마크에서도 경쟁력을 유지합니다.
방법론
-
Backbone extraction – 각 입력 모달리티를 처리하는 별도의 특징 추출기: RGB 이미지용 CNN과 3D 데이터용 포인트‑클라우드 인코더(예: PointNet++ 또는 작은 Transformer).
-
Shared Transformer encoder – 추출된 토큰(이미지 패치 + 포인트 임베딩)을 연결하여 표준 Transformer 인코더에 입력한다. 자체 어텐션이 모달리티 간 특징을 자연스럽게 정렬하여 공동 유사도 메트릭을 학습한다.
-
Dual‑stream decoder – 인코딩 후 모델은 두 개의 병렬 스트림으로 분기한다:
- Appearance stream – 텍스처/색상 단서를 중심으로 작동(2D‑2D 매칭에 유용).
- Positional stream – 기하학적 좌표를 강조(2D‑3D 및 3D‑3D 매칭에 핵심).
각 스트림은 매칭하고자 하는 목표 포인트를 나타내는 학습 가능한 쿼리 토큰 집합과 교차 어텐션을 적용한다.
-
Query‑based correspondence –任意의 소스‑타깃 쌍에 대해 모델은 작은 쿼리 토큰 집합(예: 소스의 키포인트)을 입력받는다. 디코더는 타깃 모달리티에서 가장 유사한 토큰을 반환하여 대응 관계를 생성한다.
-
Training strategy – 저자들은 다음을 결합한다:
- Synthetic pseudo‑point clouds – 깊이 맵에서 생성된 합성 가짜 포인트 클라우드로 2D‑3D 커버리지를 확대.
- Real 3D‑3D correspondence annotations – 3DLoMatch와 같은 데이터셋에서 얻은 실제 3D‑3D 대응 주석.
다중 작업 손실(대조 손실 + 기하학적 일관성)을 사용해 공유 가중치가 세 가지 매칭 문제를 동시에 잘 수행하도록 유도한다.
Results & Findings
| 작업 | 벤치마크 | 메트릭 (Recall @ 5°) | 이전 SOTA 대비 개선 |
|---|---|---|---|
| 2D‑2D | HPatches | 경쟁 수준 (≈ 0.85) | 전용 모델과 동등 |
| 2D‑3D | 7Scenes | 0.78 | +8 % |
| 3D‑3D | 3DLoMatch | 0.71 | +10 % |
- 통합 모델은 파라미터를 공유하면서도 단일 작업에서 정확도를 희생하지 않는다.
- 소거 실험은 듀얼 스트림 디코더가 2D‑3D 및 3D‑3D에서 대부분의 향상을 기여한다는 것을 보여주며, 외관과 기하학을 분리하는 것이 중요함을 확인한다.
- 합성/실제 데이터를 혼합하여 학습하면 보다 견고한 특징 공간이 형성되어 보이지 않는 장면 및 센서 모달리티에 일반화된다.
Practical Implications
- Simplified pipelines – 개발자는 더 이상 SLAM, AR, 로봇용으로 세 개의 별도 모델을 유지할 필요가 없습니다; 단일 UniCorrn 인스턴스로 시각 오도메트리(2D‑2D), RGB‑D 기반 자세 추정(2D‑3D), 그리고 포인트 클라우드 정합(3D‑3D)을 처리할 수 있습니다.
- Reduced memory and deployment cost – 가중치를 공유함으로써 전체 footprint가 작아져, 엣지 디바이스(예: 드론, AR 안경)에 유리합니다.
- Easier data collection – 모델을 합성 데이터와 실제 데이터를 혼합하여 학습시킬 수 있기 때문에, 팀은 대량의 주석이 달린 3D 포인트 클라우드 대응 관계를 수집하지 않고도 2D‑3D 기능을 초기화할 수 있습니다.
- Cross‑modal research – 이 아키텍처는 이미지와 포인트 클라우드를 넘어 LiDAR‑카메라 융합이나 다중 스펙트럼 매칭과 같은 다양한 모달리티를 결합한 향후 연구의 문을 엽니다.
제한 사항 및 향후 작업
- 합성 깊이 품질에 대한 의존성 – 의사‑포인트 클라우드는 깊이 추정의 품질에 따라 달라지며, 노이즈가 많은 깊이는 2D‑3D 성능을 저하시킬 수 있습니다.
- 매우 큰 포인트 클라우드에 대한 확장성 – Transformer 인코더는 중간 규모는 처리하지만, 매우 밀집된 3D 스캔은 계층적 또는 희소 어텐션 메커니즘이 필요할 수 있습니다.
- 동적 장면에 대한 제한된 탐색 – 현재 실험은 정적 기하에 초점을 맞추고 있으며, UniCorrn을 움직이는 객체나 시간적 일관성을 처리하도록 확장하는 것은 아직 미해결 과제입니다.
- 저자들이 제시한 향후 작업에는 확장성을 위한 희소‑어텐션 Transformers 통합, 비디오 기반 대응을 위한 시간적 쿼리 스트림 추가, 그리고 보다 다양한 센서 모달리티(예: 열, 레이더)를 포함하도록 학습 데이터를 확장하는 것이 포함됩니다.
저자
- Prajnan Goswami
- Tianye Ding
- Feng Liu
- Huaizu Jiang
논문 정보
- arXiv ID: 2605.04044v1
- 분류: cs.CV
- 출판일: 2026년 5월 5일
- PDF: PDF 다운로드