[Paper] SHOW3D: 야생에서 3D 손과 물체의 장면 캡처

발행: 1일 전 (2026년 3월 31일 AM 02:58 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.28760v1

개요

The paper introduces SHOW3D, a new dataset that captures people manipulating objects with their hands in truly “in‑the‑wild” environments—think kitchens, streets, and parks—while still providing high‑precision 3‑D annotations of both hands and objects. By combining a lightweight, back‑mounted multi‑camera rig with a VR headset, the authors bridge the long‑standing gap between realistic, diverse scenes and the accurate 3‑D ground truth that modern vision models need.

주요 기여

Marker‑less, mobile multi‑camera capture system으로, 등 뒤에 착용하고 사용자가 착용한 VR 헤드셋과 동기화되어 통제되지 않은 환경에서도 자유로운 움직임을 가능하게 합니다.
Ego‑exo tracking pipeline은 자가 중심(머리 장착) 및 외부(외부) 시점을 결합하여 물리적 마커 없이 정밀한 3‑D 손 및 객체 자세를 생성합니다.
SHOW3D dataset:

 10 k개의 주석이 달린 프레임으로, 다양한 실내·실외 장면, 다양한 객체, 다양한 조명 조건을 포괄합니다—야외에서 촘촘한 3‑D 손‑객체 상호작용 데이터를 제공하는 최초의 데이터셋입니다.
Comprehensive quality evaluation는 자동으로 생성된 주석이 스튜디오에서 캡처한 실제 정답(ground truth)의 정확도에 근접함을 보여줍니다.
Benchmarking on downstream tasks(hand pose estimation, object pose recovery, and hand‑object interaction recognition)으로, 모델을 SHOW3D로 학습했을 때 측정 가능한 성능 향상이 나타남을 입증합니다.

Source: …

방법론

하드웨어 설정 – 컴팩트한 장비가 사용자의 등 뒤에 6~8개의 동기화된 RGB 카메라를 장착합니다. 이 장비는 전방위 영상 스트림과 머리 자세를 제공하는 VR 헤드셋과 함께 보정됩니다.
데이터 캡처 – 참가자는 자유롭게 움직이면서 자연스러운 조작 작업(예: 커피 컵을 집어 들기, 문 열기)을 수행합니다. 시스템은 외부 다중 뷰 영상과 헤드셋 영상을 모두 기록합니다.
에고‑엑소 트래킹 –
- 에고 측: 헤드셋 영상은 최신 손 검출기와 3‑D 손 모델을 사용해 카메라 좌표계에서 초기 손 자세를 추정합니다.
- 엑소 측: 다중 뷰 이미지는 다중 카메라 3‑D 재구성 파이프라인에 입력되어 객체 기하학과 대략적인 손 자세를 추정합니다.
- 융합: 두 추정값은 알려진 장비‑대‑헤드 변환을 이용해 정렬되고, 번들 조정 단계에서 손과 객체 자세를 공동으로 정제하여 밀도 높은 마커‑없는 3‑D 주석을 생성합니다.
주석 검증 – 저자들은 자동 생성된 자세 중 일부를 통제된 스튜디오에서 수동으로 주석 달린 실제값과 비교하여, 번역 오차는 서브‑밀리미터 수준, 회전 오차는 서브‑도 수준임을 보고합니다.

결과 및 발견

주석 정확도: 손 키포인트에 대한 평균 관절 오차는 2.3 mm, 객체 정점에 대한 평균 오차는 3.1 mm이며, 마커나 깊이 센서를 사용하는 스튜디오 데이터셋과 비교할 만합니다.
데이터셋 다양성: 30개 이상의 서로 다른 환경(주방, 사무실, 공원)과 150개의 객체 카테고리를 포함하며, 조명은 밝은 햇빛부터 저조도 실내 장면까지 다양합니다.
하위 작업에 미치는 영향: SHOW3D로 학습된 모델은 기존 FreiHand 벤치마크에서 3‑D 손 자세 추정 정확도를 7 % 향상시킵니다(MPJPE 감소). 또한 SHOW3D 샘플로 미세조정할 경우 YCB‑Video 벤치마크에서 객체 자세 정확도가 5 % 향상됩니다.
일반화: 실험실 외부에서 완전히 촬영된 별도 “실제 세계” 테스트 세트에서 평가했을 때, SHOW3D로 학습된 모델은 스튜디오 데이터만으로 학습된 모델보다 눈에 띄게 높은 성능을 보이며, 현실감 격차를 메우는 데 데이터셋의 유용성을 확인시켜 줍니다.

실용적 함의

AR/VR 상호작용 – 혼합 현실 헤드셋용 손 추적을 개발하는 개발자는 이제 실제 사용자 움직임과 조명을 반영한 데이터로 모델을 학습할 수 있어 지연 시간을 줄이고 일상 사용에서의 견고성을 높일 수 있습니다.
로봇 조작 – 시각적 단서(예: 협업 조립)로부터 인간 의도를 추론해야 하는 로봇은 보다 현실적인 손‑물체 자세 사전 정보를 활용하여 안전성과 협업성을 향상시킬 수 있습니다.
전자상거래 및 가상 착용 – 통제되지 않은 환경에서도 정확한 손‑물체 자세 추정은 특수 캡처 장비 없이도 제품 시각화를 개선합니다(예: 휴대폰이 손에 어떻게 맞는지 확인).
데이터셋 기반 연구 – SHOW3D는 실제 장면의 풍부한 변동성을 활용하면서도 평가를 위한 신뢰할 수 있는 3‑D 정답을 제공하는 자체 지도 학습 또는 도메인 적응 방법을 위한 새로운 연구 길을 열어줍니다.

제한 사항 및 향후 작업

Hardware constraints – 장비는 가볍지만, 참가자가 등 뒤에 카메라 배열을 착용해야 하므로 장시간 녹화나 특정 활동(예: 달리기)을 제한할 수 있습니다.
Object diversity ceiling – 150개의 객체 카테고리가 포함되어 있지만, 많은 산업용 또는 고반사 객체가 충분히 대표되지 않아 이러한 경우를 처리해야 하는 모델에 영향을 줄 수 있습니다.
Annotation pipeline reliance on calibration – 장비와 머리 사이의 정밀한 보정이 중요합니다; 작은 드리프트도 주석 품질을 저하시킬 수 있어 자동 재보정 방법이 필요합니다.
Future directions – 저자들은 완전 무표식 손에 들 수 있는 캡처(예: 스마트폰 사용)를 탐색하고, 데이터셋을 동적 객체 변형을 포함하도록 확장하며, 깊이 센서를 통합해 주석 정확성을 더욱 향상시킬 계획입니다.

저자

Patrick Rim
Kevin Harris
Braden Copple
Shangchen Han
Xu Xie
Ivan Shugurov
Sizhe An
He Wen
Alex Wong
Tomas Hodan
Kun He

논문 정보

arXiv ID: 2603.28760v1
분류: cs.CV, cs.RO
출판일: 2026년 3월 30일
PDF: PDF 다운로드

[Paper] SHOW3D: 야생에서 3D 손과 물체의 장면 캡처

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] HandX: 양손 동작 및 상호작용 생성 스케일링

[Paper] PoseDreamer: 확장 가능한 포토리얼리스틱 인간 데이터 생성 파이프라인 with Diffusion Models

[Paper] 맥락 공간에서 실시간 반발을 이용한 Diffusion Transformers의 풍부한 다양성

[Paper] SonoWorld: 한 이미지에서 3D 오디오-비주얼 씬으로