[Paper] 3AM: 비디오에서 기하학적 일관성을 갖춘 Segment Anything

발행: (2026년 1월 14일 오전 03:59 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.08831v1

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

Overview

The paper “3AM: Segment Anything with Geometric Consistency in Videos” 은 비디오 객체 분할(VOS)에서 오랫동안 해결되지 않았던 문제인, 카메라 시점이 크게 변할 때 정확한 마스크를 유지하는 문제를 다룬다. 강력한 외관 기반 SAM2 모델과 MUSt3R 프레임워크의 가벼운 3‑D‑인식 특징을 결합함으로써, 저자들은 깊이 맵, 카메라 포즈, 혹은 추론 시 어떠한 전처리도 필요 없이 기하학적으로 일관된 분할을 달성한다.

주요 기여

  • 3AM 아키텍처: 경량 Feature Merger를 통해 MUSt3R의 다중 레벨 3‑D 특징과 SAM2의 외관 특징을 결합하는 학습 시 플러그인.
  • 암시적 기하학적 대응: 병합된 표현이 공간 위치를 인코딩하여, 모델이 넓은 베이스라인 프레임에서도 동일한 물리적 객체에 “고정”될 수 있게 함.
  • 시야각 인식 샘플링: 학습 프레임이 일관된 객체 영역을 공유하도록 강제하는 새로운 데이터 샘플링 전략으로, 3‑D 대응 학습을 강화함.
  • 추가 추론 비용 없음: 테스트 시 시스템은 원시 RGB 프레임만 필요하며, 깊이, 포즈 또는 무거운 전처리가 필요 없어 기존 SAM2 파이프라인에 바로 적용 가능.
  • 최첨단 성능: 어려운 넓은 베이스라인 비디오 벤치마크(ScanNet++, Replica)에서 3AM은 90.6 % IoU71.7 % Positive IoU를 달성해, 기존 최고 VOS 방법보다 각각 +15.9+30.4 포인트를 앞선다.

방법론

백본 융합

  • SAM2는 강력한 프레임당 외관 임베딩(색상, 텍스처)을 제공합니다.
  • MUSt3R은 대규모 RGB 전용 비디오 데이터에서 학습된 암시적 기하학(예: 상대 깊이, 표면 방향)을 포착하는 다중 스케일 3‑D‑인식 임베딩을 제공합니다.
  • Feature Merger(몇 개의 1×1 컨볼루션 + 잔차 연결)는 이 두 스트림을 하나의 토큰 세트로 결합하여 SAM2의 메모리 인코더에 전달합니다.

학습 시기 기하학 강제

  • 저자들은 큰 카메라 움직임에도 불구하고 동일한 객체가 겹치는 이미지 영역을 차지하는 프레임 쌍을 선택하는 시야각 인식 샘플러를 도입했습니다.
  • 대비 손실은 겹치는 영역의 병합된 토큰을 가깝게 만들고, 겹치지 않는 영역은 멀어지게 하여 네트워크에 3‑D 일관성에 대한 암시적 개념을 학습시킵니다.

추론 단순성

  • 학습 후 모델은 기본 SAM2와 동일하게 작동합니다: RGB 프레임을 입력하고, 메모리 뱅크를 조회하며, 마스크를 예측합니다.
  • 기하학 지식은 학습된 가중치에 내재화되어 있어 외부 3‑D 데이터가 필요하지 않습니다.

결과 및 발견

데이터셋 (하위집합)메트릭SAM2 (베이스라인)3AM (우리)Δ
ScanNet++ (selected)IoU74.7 %90.6 %+15.9
ScanNet++ (selected)Positive IoU41.3 %71.7 %+30.4
Replica (wide‑baseline)IoU68.2 %84.5 %+16.3
  • 시점 변화에 대한 강인성: 3AM은 객체가 시야에서 회전하거나 심한 원근 왜곡을 겪을 때도 마스크 연속성을 유지합니다.
  • 소거 연구는 Feature Merger 또는 field‑of‑view sampler를 제거하면 성능이 SAM2 수준으로 떨어진다는 것을 보여주며, 각 구성 요소의 필요성을 확인합니다.
  • 런타임 영향은 병합기가 가볍고 추론이 RGB 전용이기 때문에 (< 5 % 오버헤드) 무시할 수 있습니다.

실용적 시사점

  • Plug‑and‑play 업그레이드는 이미 SAM2를 사용 중인 모든 제품에 적용 가능 (예: 영상 편집 도구, AR/VR 파이프라인, 자율주행 인식 스택).
  • 엔지니어링 부담 감소: 깊이 센서나 SLAM 자세 추정치를 수집·동기화할 필요가 없으며, 이는 소비자 기기에서 종종 잡음이 많거나 제공되지 않는다.
  • 향상된 사용자 경험: 카메라 이동 중에도 지속적인 객체 마스크가 필요한 애플리케이션(예: 인터랙티브 비디오 리타게팅, 가상 착용, 로봇 조작 등)에서 유리함. 로봇 시점이 지속적으로 변함.
  • 낮은 연산 비용: 비용이 많이 드는 포인트 클라우드 처리를 기반으로 하는 전체 3‑D 인스턴스‑세그멘테이션 파이프라인에 비해 낮아 엣지 디바이스나 실시간 스트리밍 서비스에 적합.

제한 사항 및 향후 작업

  • 학습 데이터 의존성: 기하학 인코더(MUSt3R)는 대규모 RGB 비디오 코퍼스에 사전 학습되어 있으며, 장면 기하가 크게 다른 도메인(예: 수중 비디오 또는 의료 비디오)에서는 성능이 저하될 수 있습니다.
  • 명시적 깊이 출력 없음: 마스크는 일관성을 유지하지만, 모델은 깊이 또는 3‑D 형태 추정치를 제공하지 않으며, 이는 다운스트림 작업에 유용할 수 있습니다.
  • 메모리 확장성: SAM2와 마찬가지로 3AM은 과거 프레임의 메모리 뱅크를 저장합니다; 매우 긴 비디오의 경우 추가 전략(예: 계층적 메모리 가지치기)이 필요할 수 있습니다.
  • 향후 연구 방향: 저자들이 제시한 바에 따르면, 병합기를 확장하여 다중 모달 입력(예: LiDAR)을 처리하고, 마스크와 함께 거친 깊이를 예측하도록 학습하며, 도메인 특화 비디오 스트림에 대한 자체 지도식 미세 조정을 탐구하는 것이 포함됩니다.

저자

  • Yang‑Che Sun
  • Cheng Sun
  • Chin‑Yang Lin
  • Fu‑En Yang
  • Min‑Hung Chen
  • Yen‑Yu Lin
  • Yu‑Lun Liu

논문 정보

  • arXiv ID: 2601.08831v1
  • Categories: cs.CV
  • Published: 2026년 1월 13일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »