[Paper] OmniRobotHome: 실시간 멀티 카메라 플랫폼을 이용한 Multiadic 인간-로봇 상호작용

발행: (2026년 5월 1일 AM 02:59 GMT+9)
11 분 소요
원문: arXiv

Source: arXiv - 2604.28197v1

개요

논문은 OmniRobotHome을 소개한다. 이 방 규모 연구 플랫폼은 일반 가정에 48개의 동기화된 RGB 카메라와 두 개의 협동 로봇 팔을 장착한다. 여러 사람과 물체를 실시간으로, 가림 현상에 강인한 3‑D 추적을 제공함으로써, 시스템은 멀티애딕 인간‑로봇 상호작용을 연구할 수 있게 한다—여러 인간과 로봇이 동일 공간에서 얽힌 작업을 함께 수행하는 상황이다. 이 능력은 일상 환경에서 안전‑중요하고 선제적인 로봇 지원을 위한 새로운 실험적 영역을 열어준다.

주요 기여

  • 첫 번째 전체‑가정 인식 스택: 48개의 하드웨어 동기화 RGB 카메라가 연속적이고 마커‑없는 3‑D 추적을 제공하여 전체 거주 공간에서 여러 사람과 물체를 추적합니다.
  • 통합 월드 프레임: 모든 센서 데이터와 로봇 명령이 단일하고 전역적으로 일관된 좌표계에 표현되어 에이전트 간의 공간·시간 결합을 강화합니다.
  • 실시간 다중 로봇 구동: 두 대의 Franka Emika Panda 팔이 실시간 장면 업데이트를 받아 밀리초 단위로 반응할 수 있어 협동 조작 작업을 지원합니다.
  • 장기 행동 메모리: 연속적인 캡처를 통해 지속적인 궤적 데이터베이스가 생성되어 인간 행동 모델링 및 예측에 활용될 수 있습니다.
  • 안전성 및 선제적 지원에 대한 실증 검증: 실험을 통해 인식 파이프라인과 행동 메모리를 활용했을 때 충돌 위험 감소와 로봇 작업 타이밍 개선이 측정되었습니다.

방법론

1. 하드웨어 레이아웃

  • 48개의 RGB 카메라가 천장과 벽에 설치되어 전체 방을 겹치는 시야로 커버합니다.
  • 카메라는 공통 트리거 신호를 사용해 하드웨어 동기화되어 프레임 수준의 시간 정렬을 보장합니다.
  • 두 대의 Franka Panda 팔이 작업대의 반대쪽에 배치되어 각각 손목에 장착된 RGB‑D 센서를 통해 정밀 그립 피드백을 제공합니다.

2. 소프트웨어 파이프라인

  • 멀티뷰 융합: 개별 카메라 스트림은 경량 CNN으로 처리되어 2‑D 키포인트(인체 관절, 객체 코너)를 추출합니다. 보정된 멀티카메라 기하학 모듈이 이러한 키포인트를 삼각측량하여 3‑D 위치로 변환합니다.
  • 가림 처리: 확률적 점유 맵이 각 추적 대상에 대한 신뢰도 점수를 유지합니다; 시야가 가려질 경우 시스템은 가시 카메라에 의해 지속적으로 업데이트되는 칼만 필터의 예측에 의존합니다.
  • 월드 프레임 등록: 모든 3‑D 포인트는 방에 배치된 정적 보정 장치가 정의한 전역 좌표계로 변환됩니다.
  • 로봇 제어 루프: 로봇 컨트롤러는 30 Hz로 월드 프레임 상태를 조회하고, 충돌 없는 움직임 계획을 계산합니다(동적 장애물을 고려한 RRT* 사용). 그리고 관절 명령을 팔에 전송합니다.

3. 행동 모델링

  • 수시간에 걸쳐 축적된 궤적은 시퀀스‑투‑시퀀스 LSTM에 입력되어 미래 인간 자세와 객체 상호작용을 예측합니다.
  • 예측 모듈은 인식 파이프라인과 병렬로 실행되어 로봇이 인간 행동을 예측할 수 있게 합니다(예: 컵을 잡으려는 동작) 그리고 그리퍼를 미리 위치시킵니다.

4. 평가 프로토콜

  • 안전 테스트: 인간 참가자가 로봇 주위를 일상 작업을 수행하며 걸어다닙니다; 충돌 지표(최소 거리, 충돌까지 시간)가 기록됩니다.
  • 보조 테스트: 참가자가 로봇에게 물체를 가져오도록 요청합니다; 작업 완료 시간과 전달 부드러움이 사전 예측 계획 유무에 따라 측정됩니다.

결과 및 발견

지표기본 (인식 없음)OmniRobotHome (인식만)OmniRobotHome (+ 행동 메모리)
인간과의 평균 최소 거리 (cm)12.47.15.3
충돌 사건 (시간당)3.20.80.1
물체 가져오기 시간 (초)14.810.27.6
핸드오버 성공률68 %91 %96 %
  • 안전: 실시간 폐색 강인 추적은 인간과의 평균 근접 거리를 50 % 이상 감소시켰으며, 행동 메모리와 결합될 때 충돌을 사실상 없앴습니다.
  • 예측 지원: 예측 모델링은 가져오기 시간을 대략 절반으로 줄였으며, 로봇이 예상 인간 손 자세에 맞춰 그리퍼를 미리 정렬할 수 있어 핸드오버가 더 부드러워졌습니다.
  • 확장성: 인식 파이프라인은 RTX 4090 GPU 4개가 장착된 단일 워크스테이션에서 전체 카메라 배열 전체에 걸쳐 >30 fps를 유지했으며, 실제 배치를 위한 실현 가능성을 보여줍니다.

실용적 함의

  • 홈 로보틱스: 서비스 로봇(예: 주방 보조 로봇, 노인 돌봄 보조) 개발자는 OmniRobotHome 인식 스택을 채택하여 마커에 의존하지 않고도 혼잡하고 동적인 환경을 처리할 수 있습니다.
  • 안전 인증: 충돌 위험 감소가 입증되어 주거 환경에서 협동 로봇 안전성을 평가하는 규제 기관에 구체적인 데이터 포인트를 제공합니다.
  • 데이터 기반 로봇 행동: 장기 궤적 저장소는 지속적인 학습을 가능하게 하며, 제조업체는 클라우드 기반 모델 업데이트를 통해 시간이 지남에 따라 예측 능력을 향상시키는 로봇을 제공할 수 있습니다.
  • 다중 로봇 협업: 공유 월드 프레임을 제공함으로써 플랫폼은 추가 로봇(모바일 베이스, 드론)들을 동일 작업 공간에 통합하는 것을 간소화하고, 완전한 홈 자동화를 위한 기반을 마련합니다.
  • 오픈소스 잠재력: 저자들은 캘리브레이션 도구, 카메라 펌웨어, 인식 알고리즘을 공개할 계획이며, 이는 다중 카메라 실험실 및 밀집 인간‑로봇 상호작용을 실험하는 스타트업의 사실상 표준이 될 수 있습니다.

제한 사항 및 향후 연구

  • 하드웨어 오버헤드: 48개의 고해상도 카메라와 필요한 네트워킹 인프라를 배치하는 것은 소규모 연구실이나 소비자 제품에 대해 비용 부담이 클 수 있습니다.
  • 조명 민감도: 순수 RGB 카메라는 저조도 또는 고반사 환경에서 어려움을 겪으며, 적외선 또는 깊이 센서를 통합하면 견고성을 향상시킬 수 있습니다.
  • 일반화: 시스템은 단일 방 레이아웃에서 평가되었으며, 천장 높이가 다양한 다중 방 주택으로 확장하려면 적응형 카메라 배치와 동적 보정이 필요합니다.
  • 확장 가능한 학습: 현재 행동 모델은 수집된 궤적을 오프라인으로 학습했으며, 향후 작업에서는 새로운 사용자에게 실시간으로 적응할 수 있도록 온라인 강화 학습을 도입하는 것을 목표로 합니다.

전반적으로 OmniRobotHome은 멀티애딕 인간‑로봇 협업을 실용적인 현실로 만드는 중요한 단계이며, 안전하고 선제적인 로봇을 일상 가정에 도입하려는 개발자들을 위한 구체적인 청사진을 제공합니다.

저자

  • Junyoung Lee
  • Sookwan Han
  • Jeonghwan Kim
  • Inhee Lee
  • Mingi Choi
  • Jisoo Kim
  • Wonjung Woo
  • Hanbyul Joo

논문 정보

  • arXiv ID: 2604.28197v1
  • 분류: cs.RO, cs.CV
  • 발표일: 2026년 4월 30일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »