[논문] DisPOSE: 투영 다중확률 확산을 이용한 자기지도 다중뷰 3D 인간 자세 추정

발행: 5일 전 (2026년 6월 6일 AM 01:14 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.07419v1

개요

다중 카메라 뷰에서 여러 사람의 3D 자세를 복원하는 것은 상호작용 행동을 분석하기 위한 근본적인 병목 현상이다. 기존의 자기지도(self‑supervised) 접근법은 합성 3D 자세 카탈로그를 활용하지만, 이는 분포 이동(distribution shift) 때문에 실제 환경에서 일반화 성능이 떨어진다. 따라서 우리는 DisPOSE라는 자기지도 프레임워크를 제안한다. DisPOSE는 본질적으로 이산적인 다중‑뷰 사람 할당 문제를 다중 확률 텐서(polystochastic tensor) 공간상의 생성 확산(diffusion) 과정으로 근사한다. 디노이징 과정에서 미분 가능한 Sinkhorn 투영을 사용함으로써, 모델은 2D 이미지 사전(prior)을 기반으로 유효하고 실행 가능한 할당으로 해결책을 유도하도록 학습한다. 이후 지역화된 각 개인의 완전한 3D 스켈레톤은 다중 뷰에 걸친 관계 구조와 관절 연결을 명시적으로 모델링하는 하이퍼그래프‑컨볼루셔널 디코더(Hypergraph‑Convolutional Decoder)를 통해 회귀된다. 제안된 방법은 표준 데이터셋에서 현재 최첨단 자기지도 방법들을 능가하며, 수술실과 같이 심하게 가려진 장면을 포함한 새로운 벤치마크에서도 강력한 성능을 보인다. 확산 기반 지역화는 라벨 효율성이 높아, 의사 라벨(pseudo‑label)의 10%만 사용해도 성능의 99%를 유지한다. 특히 할당 단계와 루트 회귀(root regression) 단계를 분리하면서도 미분 가능성을 유지함으로써, DisPOSE는 다양한 카메라 배치에 거의 영향을 받지 않는다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다.

cs.CV

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여한다.

저자

Tony Danjun Wang
Tolga Birdal
Nassir Navab

논문 정보

arXiv ID: 2606.07419v1
분류: cs.CV
발표일: 2026년 6월 5일
PDF: PDF 다운로드

[논문] DisPOSE: 투영 다중확률 확산을 이용한 자기지도 다중뷰 3D 인간 자세 추정

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] UniSHARP: 범용 선명 단안 시점 합성

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 스트리밍 힘 제어를 활용한 비디오 생성

[논문] 탐지 차이: 중요한 상황에서의 설명 가능성