[Paper] OmniRobotHome: 실시간 멀티 카메라 플랫폼을 이용한 Multiadic 인간-로봇 상호작용

발행: 19시간 전 (2026년 5월 1일 AM 02:59 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2604.28197v1

개요

논문은 OmniRobotHome을 소개한다. 이 방 규모 연구 플랫폼은 일반 가정에 48개의 동기화된 RGB 카메라와 두 개의 협동 로봇 팔을 장착한다. 여러 사람과 물체를 실시간으로, 가림 현상에 강인한 3‑D 추적을 제공함으로써, 시스템은 멀티애딕 인간‑로봇 상호작용을 연구할 수 있게 한다—여러 인간과 로봇이 동일 공간에서 얽힌 작업을 함께 수행하는 상황이다. 이 능력은 일상 환경에서 안전‑중요하고 선제적인 로봇 지원을 위한 새로운 실험적 영역을 열어준다.

주요 기여

첫 번째 전체‑가정 인식 스택: 48개의 하드웨어 동기화 RGB 카메라가 연속적이고 마커‑없는 3‑D 추적을 제공하여 전체 거주 공간에서 여러 사람과 물체를 추적합니다.
통합 월드 프레임: 모든 센서 데이터와 로봇 명령이 단일하고 전역적으로 일관된 좌표계에 표현되어 에이전트 간의 공간·시간 결합을 강화합니다.
실시간 다중 로봇 구동: 두 대의 Franka Emika Panda 팔이 실시간 장면 업데이트를 받아 밀리초 단위로 반응할 수 있어 협동 조작 작업을 지원합니다.
장기 행동 메모리: 연속적인 캡처를 통해 지속적인 궤적 데이터베이스가 생성되어 인간 행동 모델링 및 예측에 활용될 수 있습니다.
안전성 및 선제적 지원에 대한 실증 검증: 실험을 통해 인식 파이프라인과 행동 메모리를 활용했을 때 충돌 위험 감소와 로봇 작업 타이밍 개선이 측정되었습니다.

방법론

1. 하드웨어 레이아웃

48개의 RGB 카메라가 천장과 벽에 설치되어 전체 방을 겹치는 시야로 커버합니다.
카메라는 공통 트리거 신호를 사용해 하드웨어 동기화되어 프레임 수준의 시간 정렬을 보장합니다.
두 대의 Franka Panda 팔이 작업대의 반대쪽에 배치되어 각각 손목에 장착된 RGB‑D 센서를 통해 정밀 그립 피드백을 제공합니다.

2. 소프트웨어 파이프라인

멀티뷰 융합: 개별 카메라 스트림은 경량 CNN으로 처리되어 2‑D 키포인트(인체 관절, 객체 코너)를 추출합니다. 보정된 멀티카메라 기하학 모듈이 이러한 키포인트를 삼각측량하여 3‑D 위치로 변환합니다.
가림 처리: 확률적 점유 맵이 각 추적 대상에 대한 신뢰도 점수를 유지합니다; 시야가 가려질 경우 시스템은 가시 카메라에 의해 지속적으로 업데이트되는 칼만 필터의 예측에 의존합니다.
월드 프레임 등록: 모든 3‑D 포인트는 방에 배치된 정적 보정 장치가 정의한 전역 좌표계로 변환됩니다.
로봇 제어 루프: 로봇 컨트롤러는 30 Hz로 월드 프레임 상태를 조회하고, 충돌 없는 움직임 계획을 계산합니다(동적 장애물을 고려한 RRT* 사용). 그리고 관절 명령을 팔에 전송합니다.

3. 행동 모델링

수시간에 걸쳐 축적된 궤적은 시퀀스‑투‑시퀀스 LSTM에 입력되어 미래 인간 자세와 객체 상호작용을 예측합니다.
예측 모듈은 인식 파이프라인과 병렬로 실행되어 로봇이 인간 행동을 예측할 수 있게 합니다(예: 컵을 잡으려는 동작) 그리고 그리퍼를 미리 위치시킵니다.

4. 평가 프로토콜

안전 테스트: 인간 참가자가 로봇 주위를 일상 작업을 수행하며 걸어다닙니다; 충돌 지표(최소 거리, 충돌까지 시간)가 기록됩니다.
보조 테스트: 참가자가 로봇에게 물체를 가져오도록 요청합니다; 작업 완료 시간과 전달 부드러움이 사전 예측 계획 유무에 따라 측정됩니다.

결과 및 발견

지표	기본 (인식 없음)	OmniRobotHome (인식만)	OmniRobotHome (+ 행동 메모리)
인간과의 평균 최소 거리 (cm)	12.4	7.1	5.3
충돌 사건 (시간당)	3.2	0.8	0.1
물체 가져오기 시간 (초)	14.8	10.2	7.6
핸드오버 성공률	68 %	91 %	96 %

안전: 실시간 폐색 강인 추적은 인간과의 평균 근접 거리를 50 % 이상 감소시켰으며, 행동 메모리와 결합될 때 충돌을 사실상 없앴습니다.
예측 지원: 예측 모델링은 가져오기 시간을 대략 절반으로 줄였으며, 로봇이 예상 인간 손 자세에 맞춰 그리퍼를 미리 정렬할 수 있어 핸드오버가 더 부드러워졌습니다.
확장성: 인식 파이프라인은 RTX 4090 GPU 4개가 장착된 단일 워크스테이션에서 전체 카메라 배열 전체에 걸쳐 >30 fps를 유지했으며, 실제 배치를 위한 실현 가능성을 보여줍니다.

실용적 함의

홈 로보틱스: 서비스 로봇(예: 주방 보조 로봇, 노인 돌봄 보조) 개발자는 OmniRobotHome 인식 스택을 채택하여 마커에 의존하지 않고도 혼잡하고 동적인 환경을 처리할 수 있습니다.
안전 인증: 충돌 위험 감소가 입증되어 주거 환경에서 협동 로봇 안전성을 평가하는 규제 기관에 구체적인 데이터 포인트를 제공합니다.
데이터 기반 로봇 행동: 장기 궤적 저장소는 지속적인 학습을 가능하게 하며, 제조업체는 클라우드 기반 모델 업데이트를 통해 시간이 지남에 따라 예측 능력을 향상시키는 로봇을 제공할 수 있습니다.
다중 로봇 협업: 공유 월드 프레임을 제공함으로써 플랫폼은 추가 로봇(모바일 베이스, 드론)들을 동일 작업 공간에 통합하는 것을 간소화하고, 완전한 홈 자동화를 위한 기반을 마련합니다.
오픈소스 잠재력: 저자들은 캘리브레이션 도구, 카메라 펌웨어, 인식 알고리즘을 공개할 계획이며, 이는 다중 카메라 실험실 및 밀집 인간‑로봇 상호작용을 실험하는 스타트업의 사실상 표준이 될 수 있습니다.

제한 사항 및 향후 연구

하드웨어 오버헤드: 48개의 고해상도 카메라와 필요한 네트워킹 인프라를 배치하는 것은 소규모 연구실이나 소비자 제품에 대해 비용 부담이 클 수 있습니다.
조명 민감도: 순수 RGB 카메라는 저조도 또는 고반사 환경에서 어려움을 겪으며, 적외선 또는 깊이 센서를 통합하면 견고성을 향상시킬 수 있습니다.
일반화: 시스템은 단일 방 레이아웃에서 평가되었으며, 천장 높이가 다양한 다중 방 주택으로 확장하려면 적응형 카메라 배치와 동적 보정이 필요합니다.
확장 가능한 학습: 현재 행동 모델은 수집된 궤적을 오프라인으로 학습했으며, 향후 작업에서는 새로운 사용자에게 실시간으로 적응할 수 있도록 온라인 강화 학습을 도입하는 것을 목표로 합니다.

전반적으로 OmniRobotHome은 멀티애딕 인간‑로봇 협업을 실용적인 현실로 만드는 중요한 단계이며, 안전하고 선제적인 로봇을 일상 가정에 도입하려는 개발자들을 위한 구체적인 청사진을 제공합니다.

저자

Junyoung Lee
Sookwan Han
Jeonghwan Kim
Inhee Lee
Mingi Choi
Jisoo Kim
Wonjung Woo
Hanbyul Joo

논문 정보

arXiv ID: 2604.28197v1
분류: cs.RO, cs.CV
발표일: 2026년 4월 30일
PDF: PDF 다운로드

[Paper] OmniRobotHome: 실시간 멀티 카메라 플랫폼을 이용한 Multiadic 인간-로봇 상호작용

개요

주요 기여

방법론

1. 하드웨어 레이아웃

2. 소프트웨어 파이프라인

3. 행동 모델링

4. 평가 프로토콜

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] HERMES++: 통합 운전 월드 모델을 향한 3D 씬 이해 및 생성

[Paper] 일반화 가능한 Sparse-View 3D 재구성 (제한 없는 이미지)

[Paper] LaST‑R1: VLA 모델을 위한 적응형 물리 잠재 추론을 통한 행동 강화

[Paper] 시각 생성용 Representation Fréchet Loss