[Paper] 3AM: 비디오에서 기하학적 일관성을 갖춘 Segment Anything
발행: (2026년 1월 14일 오전 03:59 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2601.08831v1
번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.
Overview
The paper “3AM: Segment Anything with Geometric Consistency in Videos” 은 비디오 객체 분할(VOS)에서 오랫동안 해결되지 않았던 문제인, 카메라 시점이 크게 변할 때 정확한 마스크를 유지하는 문제를 다룬다. 강력한 외관 기반 SAM2 모델과 MUSt3R 프레임워크의 가벼운 3‑D‑인식 특징을 결합함으로써, 저자들은 깊이 맵, 카메라 포즈, 혹은 추론 시 어떠한 전처리도 필요 없이 기하학적으로 일관된 분할을 달성한다.
주요 기여
- 3AM 아키텍처: 경량 Feature Merger를 통해 MUSt3R의 다중 레벨 3‑D 특징과 SAM2의 외관 특징을 결합하는 학습 시 플러그인.
- 암시적 기하학적 대응: 병합된 표현이 공간 위치를 인코딩하여, 모델이 넓은 베이스라인 프레임에서도 동일한 물리적 객체에 “고정”될 수 있게 함.
- 시야각 인식 샘플링: 학습 프레임이 일관된 객체 영역을 공유하도록 강제하는 새로운 데이터 샘플링 전략으로, 3‑D 대응 학습을 강화함.
- 추가 추론 비용 없음: 테스트 시 시스템은 원시 RGB 프레임만 필요하며, 깊이, 포즈 또는 무거운 전처리가 필요 없어 기존 SAM2 파이프라인에 바로 적용 가능.
- 최첨단 성능: 어려운 넓은 베이스라인 비디오 벤치마크(ScanNet++, Replica)에서 3AM은 90.6 % IoU와 71.7 % Positive IoU를 달성해, 기존 최고 VOS 방법보다 각각 +15.9와 +30.4 포인트를 앞선다.
방법론
백본 융합
- SAM2는 강력한 프레임당 외관 임베딩(색상, 텍스처)을 제공합니다.
- MUSt3R은 대규모 RGB 전용 비디오 데이터에서 학습된 암시적 기하학(예: 상대 깊이, 표면 방향)을 포착하는 다중 스케일 3‑D‑인식 임베딩을 제공합니다.
- Feature Merger(몇 개의 1×1 컨볼루션 + 잔차 연결)는 이 두 스트림을 하나의 토큰 세트로 결합하여 SAM2의 메모리 인코더에 전달합니다.
학습 시기 기하학 강제
- 저자들은 큰 카메라 움직임에도 불구하고 동일한 객체가 겹치는 이미지 영역을 차지하는 프레임 쌍을 선택하는 시야각 인식 샘플러를 도입했습니다.
- 대비 손실은 겹치는 영역의 병합된 토큰을 가깝게 만들고, 겹치지 않는 영역은 멀어지게 하여 네트워크에 3‑D 일관성에 대한 암시적 개념을 학습시킵니다.
추론 단순성
- 학습 후 모델은 기본 SAM2와 동일하게 작동합니다: RGB 프레임을 입력하고, 메모리 뱅크를 조회하며, 마스크를 예측합니다.
- 기하학 지식은 학습된 가중치에 내재화되어 있어 외부 3‑D 데이터가 필요하지 않습니다.
결과 및 발견
| 데이터셋 (하위집합) | 메트릭 | SAM2 (베이스라인) | 3AM (우리) | Δ |
|---|---|---|---|---|
| ScanNet++ (selected) | IoU | 74.7 % | 90.6 % | +15.9 |
| ScanNet++ (selected) | Positive IoU | 41.3 % | 71.7 % | +30.4 |
| Replica (wide‑baseline) | IoU | 68.2 % | 84.5 % | +16.3 |
- 시점 변화에 대한 강인성: 3AM은 객체가 시야에서 회전하거나 심한 원근 왜곡을 겪을 때도 마스크 연속성을 유지합니다.
- 소거 연구는 Feature Merger 또는 field‑of‑view sampler를 제거하면 성능이 SAM2 수준으로 떨어진다는 것을 보여주며, 각 구성 요소의 필요성을 확인합니다.
- 런타임 영향은 병합기가 가볍고 추론이 RGB 전용이기 때문에 (< 5 % 오버헤드) 무시할 수 있습니다.
실용적 시사점
- Plug‑and‑play 업그레이드는 이미 SAM2를 사용 중인 모든 제품에 적용 가능 (예: 영상 편집 도구, AR/VR 파이프라인, 자율주행 인식 스택).
- 엔지니어링 부담 감소: 깊이 센서나 SLAM 자세 추정치를 수집·동기화할 필요가 없으며, 이는 소비자 기기에서 종종 잡음이 많거나 제공되지 않는다.
- 향상된 사용자 경험: 카메라 이동 중에도 지속적인 객체 마스크가 필요한 애플리케이션(예: 인터랙티브 비디오 리타게팅, 가상 착용, 로봇 조작 등)에서 유리함. 로봇 시점이 지속적으로 변함.
- 낮은 연산 비용: 비용이 많이 드는 포인트 클라우드 처리를 기반으로 하는 전체 3‑D 인스턴스‑세그멘테이션 파이프라인에 비해 낮아 엣지 디바이스나 실시간 스트리밍 서비스에 적합.
제한 사항 및 향후 작업
- 학습 데이터 의존성: 기하학 인코더(MUSt3R)는 대규모 RGB 비디오 코퍼스에 사전 학습되어 있으며, 장면 기하가 크게 다른 도메인(예: 수중 비디오 또는 의료 비디오)에서는 성능이 저하될 수 있습니다.
- 명시적 깊이 출력 없음: 마스크는 일관성을 유지하지만, 모델은 깊이 또는 3‑D 형태 추정치를 제공하지 않으며, 이는 다운스트림 작업에 유용할 수 있습니다.
- 메모리 확장성: SAM2와 마찬가지로 3AM은 과거 프레임의 메모리 뱅크를 저장합니다; 매우 긴 비디오의 경우 추가 전략(예: 계층적 메모리 가지치기)이 필요할 수 있습니다.
- 향후 연구 방향: 저자들이 제시한 바에 따르면, 병합기를 확장하여 다중 모달 입력(예: LiDAR)을 처리하고, 마스크와 함께 거친 깊이를 예측하도록 학습하며, 도메인 특화 비디오 스트림에 대한 자체 지도식 미세 조정을 탐구하는 것이 포함됩니다.
저자
- Yang‑Che Sun
- Cheng Sun
- Chin‑Yang Lin
- Fu‑En Yang
- Min‑Hung Chen
- Yen‑Yu Lin
- Yu‑Lun Liu
논문 정보
- arXiv ID: 2601.08831v1
- Categories: cs.CV
- Published: 2026년 1월 13일
- PDF: PDF 다운로드