[Paper] UniCorrn: 2D와 3D를 아우르는 Unified Correspondence Transformer

발행: 5일 전 (2026년 5월 6일 AM 02:58 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2605.04044v1

개요

UniCorrn은 이미지‑대‑이미지 (2D‑2D), 이미지‑대‑포인트 클라우드 (2D‑3D), 그리고 포인트 클라우드‑대‑포인트 클라우드 (3D‑3D) 데이터 간의 대응 관계를 찾을 수 있는 단일 통합 Transformer 모델을 소개합니다. 이 세 작업에 걸쳐 가중치를 공유함으로써, 논문에서는 공통 아키텍처가 특히 2D‑3D 및 3D‑3D 정합 벤치마크에서 특화된 최신 방법들을 능가할 수 있음을 보여줍니다.

주요 기여

첫 번째 통합 대응 변환기로, 단일 파라미터 집합만으로 2D‑2D, 2D‑3D, 3D‑3D 매칭을 모두 수행합니다.
듀얼‑스트림 디코더는 외관(텍스처) 특징과 위치(기하) 특징을 별도로 유지하여 정확한 교차‑모달 유사도 계산을 가능하게 합니다.
모달리티에 구애받지 않는 인코더/디코더는 기존 2D(CNN)와 3D(PointNet/Transformer) 백본 위에 구축되어 일반적인 비전 파이프라인에 손쉽게 통합할 수 있습니다.
혼합 데이터에 대한 공동 학습(깊이 맵에서 생성된 합성 의사‑포인트 클라우드 + 실제 3D 대응 라벨)으로 강인하고 교차‑모달 특징 공간을 학습합니다.
최첨단 성능: 7Scenes(2D‑3D)에서 등록 재현율이 +8 % 향상되고, 3DLoMatch(3D‑3D)에서 +10 % 향상되었으며, 기존 2D‑2D 벤치마크에서도 경쟁력을 유지합니다.

방법론

Backbone extraction – 각 입력 모달리티를 처리하는 별도의 특징 추출기: RGB 이미지용 CNN과 3D 데이터용 포인트‑클라우드 인코더(예: PointNet++ 또는 작은 Transformer).
Shared Transformer encoder – 추출된 토큰(이미지 패치 + 포인트 임베딩)을 연결하여 표준 Transformer 인코더에 입력한다. 자체 어텐션이 모달리티 간 특징을 자연스럽게 정렬하여 공동 유사도 메트릭을 학습한다.
Dual‑stream decoder – 인코딩 후 모델은 두 개의 병렬 스트림으로 분기한다:
- Appearance stream – 텍스처/색상 단서를 중심으로 작동(2D‑2D 매칭에 유용).
- Positional stream – 기하학적 좌표를 강조(2D‑3D 및 3D‑3D 매칭에 핵심).
  각 스트림은 매칭하고자 하는 목표 포인트를 나타내는 학습 가능한 쿼리 토큰 집합과 교차 어텐션을 적용한다.
Query‑based correspondence –任意의 소스‑타깃 쌍에 대해 모델은 작은 쿼리 토큰 집합(예: 소스의 키포인트)을 입력받는다. 디코더는 타깃 모달리티에서 가장 유사한 토큰을 반환하여 대응 관계를 생성한다.
Training strategy – 저자들은 다음을 결합한다:
- Synthetic pseudo‑point clouds – 깊이 맵에서 생성된 합성 가짜 포인트 클라우드로 2D‑3D 커버리지를 확대.
- Real 3D‑3D correspondence annotations – 3DLoMatch와 같은 데이터셋에서 얻은 실제 3D‑3D 대응 주석.
  다중 작업 손실(대조 손실 + 기하학적 일관성)을 사용해 공유 가중치가 세 가지 매칭 문제를 동시에 잘 수행하도록 유도한다.

Results & Findings

작업	벤치마크	메트릭 (Recall @ 5°)	이전 SOTA 대비 개선
2D‑2D	HPatches	경쟁 수준 (≈ 0.85)	전용 모델과 동등
2D‑3D	7Scenes	0.78	+8 %
3D‑3D	3DLoMatch	0.71	+10 %

통합 모델은 파라미터를 공유하면서도 단일 작업에서 정확도를 희생하지 않는다.
소거 실험은 듀얼 스트림 디코더가 2D‑3D 및 3D‑3D에서 대부분의 향상을 기여한다는 것을 보여주며, 외관과 기하학을 분리하는 것이 중요함을 확인한다.
합성/실제 데이터를 혼합하여 학습하면 보다 견고한 특징 공간이 형성되어 보이지 않는 장면 및 센서 모달리티에 일반화된다.

Practical Implications

Simplified pipelines – 개발자는 더 이상 SLAM, AR, 로봇용으로 세 개의 별도 모델을 유지할 필요가 없습니다; 단일 UniCorrn 인스턴스로 시각 오도메트리(2D‑2D), RGB‑D 기반 자세 추정(2D‑3D), 그리고 포인트 클라우드 정합(3D‑3D)을 처리할 수 있습니다.
Reduced memory and deployment cost – 가중치를 공유함으로써 전체 footprint가 작아져, 엣지 디바이스(예: 드론, AR 안경)에 유리합니다.
Easier data collection – 모델을 합성 데이터와 실제 데이터를 혼합하여 학습시킬 수 있기 때문에, 팀은 대량의 주석이 달린 3D 포인트 클라우드 대응 관계를 수집하지 않고도 2D‑3D 기능을 초기화할 수 있습니다.
Cross‑modal research – 이 아키텍처는 이미지와 포인트 클라우드를 넘어 LiDAR‑카메라 융합이나 다중 스펙트럼 매칭과 같은 다양한 모달리티를 결합한 향후 연구의 문을 엽니다.

제한 사항 및 향후 작업

합성 깊이 품질에 대한 의존성 – 의사‑포인트 클라우드는 깊이 추정의 품질에 따라 달라지며, 노이즈가 많은 깊이는 2D‑3D 성능을 저하시킬 수 있습니다.
매우 큰 포인트 클라우드에 대한 확장성 – Transformer 인코더는 중간 규모는 처리하지만, 매우 밀집된 3D 스캔은 계층적 또는 희소 어텐션 메커니즘이 필요할 수 있습니다.
동적 장면에 대한 제한된 탐색 – 현재 실험은 정적 기하에 초점을 맞추고 있으며, UniCorrn을 움직이는 객체나 시간적 일관성을 처리하도록 확장하는 것은 아직 미해결 과제입니다.
저자들이 제시한 향후 작업에는 확장성을 위한 희소‑어텐션 Transformers 통합, 비디오 기반 대응을 위한 시간적 쿼리 스트림 추가, 그리고 보다 다양한 센서 모달리티(예: 열, 레이더)를 포함하도록 학습 데이터를 확장하는 것이 포함됩니다.

저자

Prajnan Goswami
Tianye Ding
Feng Liu
Huaizu Jiang

논문 정보

arXiv ID: 2605.04044v1
분류: cs.CV
출판일: 2026년 5월 5일
PDF: PDF 다운로드

[Paper] UniCorrn: 2D와 3D를 아우르는 Unified Correspondence Transformer

개요

주요 기여

방법론

Results & Findings

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 트래젝터리 모델 정규화

[Paper] Proxy3D: Vision‑Language 모델을 위한 효율적인 3D 표현, 시맨틱 클러스터링 및 정렬을 통해

[Paper] Flow-OPD: Flow Matching 모델을 위한 온-폴리시 증류

[Paper] 고제약 인간 모션 생성에 대한 Retrieval-Guided Diffusion Noise Optimization