[Paper] 3AM: 비디오에서 기하학적 일관성을 갖춘 Segment Anything

발행: 3주 전 (2026년 1월 14일 오전 03:59 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2601.08831v1

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

Overview

The paper “3AM: Segment Anything with Geometric Consistency in Videos” 은 비디오 객체 분할(VOS)에서 오랫동안 해결되지 않았던 문제인, 카메라 시점이 크게 변할 때 정확한 마스크를 유지하는 문제를 다룬다. 강력한 외관 기반 SAM2 모델과 MUSt3R 프레임워크의 가벼운 3‑D‑인식 특징을 결합함으로써, 저자들은 깊이 맵, 카메라 포즈, 혹은 추론 시 어떠한 전처리도 필요 없이 기하학적으로 일관된 분할을 달성한다.

주요 기여

3AM 아키텍처: 경량 Feature Merger를 통해 MUSt3R의 다중 레벨 3‑D 특징과 SAM2의 외관 특징을 결합하는 학습 시 플러그인.
암시적 기하학적 대응: 병합된 표현이 공간 위치를 인코딩하여, 모델이 넓은 베이스라인 프레임에서도 동일한 물리적 객체에 “고정”될 수 있게 함.
시야각 인식 샘플링: 학습 프레임이 일관된 객체 영역을 공유하도록 강제하는 새로운 데이터 샘플링 전략으로, 3‑D 대응 학습을 강화함.
추가 추론 비용 없음: 테스트 시 시스템은 원시 RGB 프레임만 필요하며, 깊이, 포즈 또는 무거운 전처리가 필요 없어 기존 SAM2 파이프라인에 바로 적용 가능.
최첨단 성능: 어려운 넓은 베이스라인 비디오 벤치마크(ScanNet++, Replica)에서 3AM은 90.6 % IoU와 71.7 % Positive IoU를 달성해, 기존 최고 VOS 방법보다 각각 +15.9와 +30.4 포인트를 앞선다.

방법론

백본 융합

SAM2는 강력한 프레임당 외관 임베딩(색상, 텍스처)을 제공합니다.
MUSt3R은 대규모 RGB 전용 비디오 데이터에서 학습된 암시적 기하학(예: 상대 깊이, 표면 방향)을 포착하는 다중 스케일 3‑D‑인식 임베딩을 제공합니다.
Feature Merger(몇 개의 1×1 컨볼루션 + 잔차 연결)는 이 두 스트림을 하나의 토큰 세트로 결합하여 SAM2의 메모리 인코더에 전달합니다.

학습 시기 기하학 강제

저자들은 큰 카메라 움직임에도 불구하고 동일한 객체가 겹치는 이미지 영역을 차지하는 프레임 쌍을 선택하는 시야각 인식 샘플러를 도입했습니다.
대비 손실은 겹치는 영역의 병합된 토큰을 가깝게 만들고, 겹치지 않는 영역은 멀어지게 하여 네트워크에 3‑D 일관성에 대한 암시적 개념을 학습시킵니다.

추론 단순성

학습 후 모델은 기본 SAM2와 동일하게 작동합니다: RGB 프레임을 입력하고, 메모리 뱅크를 조회하며, 마스크를 예측합니다.
기하학 지식은 학습된 가중치에 내재화되어 있어 외부 3‑D 데이터가 필요하지 않습니다.

결과 및 발견

데이터셋 (하위집합)	메트릭	SAM2 (베이스라인)	3AM (우리)	Δ
ScanNet++ (selected)	IoU	74.7 %	90.6 %	+15.9
ScanNet++ (selected)	Positive IoU	41.3 %	71.7 %	+30.4
Replica (wide‑baseline)	IoU	68.2 %	84.5 %	+16.3

시점 변화에 대한 강인성: 3AM은 객체가 시야에서 회전하거나 심한 원근 왜곡을 겪을 때도 마스크 연속성을 유지합니다.
소거 연구는 Feature Merger 또는 field‑of‑view sampler를 제거하면 성능이 SAM2 수준으로 떨어진다는 것을 보여주며, 각 구성 요소의 필요성을 확인합니다.
런타임 영향은 병합기가 가볍고 추론이 RGB 전용이기 때문에 (< 5 % 오버헤드) 무시할 수 있습니다.

실용적 시사점

Plug‑and‑play 업그레이드는 이미 SAM2를 사용 중인 모든 제품에 적용 가능 (예: 영상 편집 도구, AR/VR 파이프라인, 자율주행 인식 스택).
엔지니어링 부담 감소: 깊이 센서나 SLAM 자세 추정치를 수집·동기화할 필요가 없으며, 이는 소비자 기기에서 종종 잡음이 많거나 제공되지 않는다.
향상된 사용자 경험: 카메라 이동 중에도 지속적인 객체 마스크가 필요한 애플리케이션(예: 인터랙티브 비디오 리타게팅, 가상 착용, 로봇 조작 등)에서 유리함. 로봇 시점이 지속적으로 변함.
낮은 연산 비용: 비용이 많이 드는 포인트 클라우드 처리를 기반으로 하는 전체 3‑D 인스턴스‑세그멘테이션 파이프라인에 비해 낮아 엣지 디바이스나 실시간 스트리밍 서비스에 적합.

제한 사항 및 향후 작업

학습 데이터 의존성: 기하학 인코더(MUSt3R)는 대규모 RGB 비디오 코퍼스에 사전 학습되어 있으며, 장면 기하가 크게 다른 도메인(예: 수중 비디오 또는 의료 비디오)에서는 성능이 저하될 수 있습니다.
명시적 깊이 출력 없음: 마스크는 일관성을 유지하지만, 모델은 깊이 또는 3‑D 형태 추정치를 제공하지 않으며, 이는 다운스트림 작업에 유용할 수 있습니다.
메모리 확장성: SAM2와 마찬가지로 3AM은 과거 프레임의 메모리 뱅크를 저장합니다; 매우 긴 비디오의 경우 추가 전략(예: 계층적 메모리 가지치기)이 필요할 수 있습니다.
향후 연구 방향: 저자들이 제시한 바에 따르면, 병합기를 확장하여 다중 모달 입력(예: LiDAR)을 처리하고, 마스크와 함께 거친 깊이를 예측하도록 학습하며, 도메인 특화 비디오 스트림에 대한 자체 지도식 미세 조정을 탐구하는 것이 포함됩니다.

저자

Yang‑Che Sun
Cheng Sun
Chin‑Yang Lin
Fu‑En Yang
Min‑Hung Chen
Yen‑Yu Lin
Yu‑Lun Liu

논문 정보

arXiv ID: 2601.08831v1
Categories: cs.CV
Published: 2026년 1월 13일
PDF: PDF 다운로드

[Paper] 3AM: 비디오에서 기하학적 일관성을 갖춘 Segment Anything

Overview

주요 기여

방법론

백본 융합

학습 시기 기하학 강제

추론 단순성

결과 및 발견

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] UniX: Autoregression과 Diffusion을 통합한 흉부 X-Ray 이해 및 생성

[Paper] ShapeR: 일상적인 캡처에서 강인한 조건부 3D 형태 생성

[Paper] ReScene4D: 진화하는 실내 3D 씬의 시간적 일관성을 갖춘 시맨틱 인스턴스 분할

[Paper] CTest-Metric: CT 보고서 생성 메트릭의 임상 타당성을 평가하는 통합 프레임워크