첫 번째 Healthcare Robotics 데이터셋 및 Healthcare Robotics를 위한 기본 Physical AI 모델

발행: (2026년 3월 17일 오전 06:58 GMT+9)
10 분 소요

Source: Hugging Face Blog

저자

Shuver
Nigel N.
Lukas Z.
Mostafa T.

목차

Open‑H‑Embodiment 소개: 커뮤니티 협업으로 만든 최초의 의료 로봇 오픈 데이터셋

Authors: Nigel Nelson, Lukas Zbinden, Mostafa Toloui, Sean Huver

헬스케어 AI는 주로 인식 기반으로, 신호를 해석하고 병변/해부학을 분류하거나 세분화하는 모델에 초점을 맞추어 왔습니다. 그러나 의료 분야는 “행동”도 포함합니다. 구현성, 접촉 역학, 폐쇄‑루프 제어가 결여된 정적·인식 전용 데이터셋은 이 분야에 충분하지 않습니다. 이제 이 분야가 필요로 하는 것은:

  • 표준화된 로봇 본체
  • 동기화된 비전·힘·운동학 데이터
  • 시뮬‑실제(Sim‑to‑Real) 쌍
  • 크로스‑임베디먼트 벤치마크

이러한 요소들이 Physical AI의 기반을 형성합니다.

1. Open‑H‑Embodiment

Open‑H‑Embodiment은 외과 로봇 및 초음파 분야에서 AI 자율성 및 세계 기반 모델을 훈련·평가하기 위한 개방적이고 공유된 기반을 제공하는 커뮤니티 주도 데이터셋 이니셔티브입니다.

이 프로젝트는 Prof. Axel Krieger (Johns Hopkins), Prof. Nassir Navab (Technical University of Munich), Dr. Mahdi Azizian (NVIDIA) 등으로 구성된 운영 위원회에 의해 시작되었으며 현재 35개 조직에 걸쳐 진행되고 있습니다.

Participants

Balgrist, CMR Surgical, The Chinese University of Hong Kong, Great Bay University, Hong Kong Baptist University, Hamlyn, ImFusion, Johns Hopkins University, Leeds University, Mohamed bin Zayed University of Artificial Intelligence, Moon Surgical, NVIDIA, Northwell Health, Óbuda University, The Hong Kong Polytechnic University, Qilu Hospital of Shandong University, Rob Surgical, Sanoscience, Surgical Data Science Collective, Semaphor Surgical, Stanford, Dresden University of Technology, Technical University of Munich, Tuodao, Turin, University of British Columbia, UC Berkeley, UC San Diego, University of Illinois Chicago, University of Tennessee, University of Texas, Vanderbilt, and Virtual Incision.

The Dataset

  • 778 시간의 CC‑BY‑4.0 라이선스 의료 로봇 훈련 데이터(주로 외과 로봇, 초음파 및 대장내시경 자율성 포함).
  • 시뮬레이션, 벤치톱 연습(예: 봉합) 및 실제 임상 절차를 포함합니다.
  • 상용 로봇(CMR Surgical, Rob Surgical, Tuodao) 및 연구 로봇(dVRK, Franka, Kuka)을 활용합니다.
  • 이 데이터로 학습된 두 개의 새로운 관용적인 오픈소스 모델과 함께 공개되었습니다.

Open‑H‑Embodiment sample data
Open‑H‑Embodiment 샘플 데이터

2. GR00T‑H: 외과 로보틱스를 위한 비전‑언어‑액션 모델

GR00T‑H는 Isaac GR00T N 시리즈의 Vision‑Language‑Action (VLA) 모델을 파생한 것입니다. 약 600 시간 분량의 Open‑H‑Embodiment 데이터를 학습했으며, 외과 로보틱스 작업을 위한 최초의 정책 모델입니다.

NVIDIA의 오픈‑소스 생태계를 기반으로 구축된 Isaac GR00T‑H는 Cosmos Reason 2 2B 를 비전‑언어 모델(VLM) 백본으로 활용합니다.

GR00T‑H 아키텍처 일러스트레이션

아키텍처 설계 선택

외과 로보틱스는 높은 정밀도를 요구하지만, 케이블‑구동 시스템과 같은 특수 하드웨어 때문에 모방 학습(IL)이 어렵습니다. GR00T‑H는 다음 네 가지 핵심 설계 선택으로 이를 해결합니다:

  1. 고유 임베디드 프로젝터 – 학습 가능한 MLP가 각 로봇의 고유한 운동학을 공유되고 정규화된 액션 공간으로 매핑합니다.
  2. 상태 드롭아웃 (100 %) – 추론 시 고유감각 입력을 드롭하여 각 시스템에 대한 학습된 바이어스 항을 생성하고 실제 환경 성능을 향상시킵니다.
  3. 상대 EEF 액션 – 훈련 시 공통의 상대 엔드‑이펙터(EEF) 액션 공간을 사용해 운동학적 불일치를 극복합니다.
  4. 작업 프롬프트에 메타데이터 포함 – 도구 이름과 제어‑인덱스 매핑을 VLM 작업 프롬프트에 직접 삽입합니다.

GR00T‑H 프로토타입은 SutureBot 벤치마크에서 전체 엔드‑투‑엔드 봉합을 수행할 수 있음을 입증했으며, 장기적인 정교함을 보여줍니다.

GR00T‑H가 봉합을 수행하는 모습 (GIF)
GR00T‑H가 SutureBot 벤치마크에서 봉합을 완료하는 모습

performing end-to-end suturing.

3. Cosmos‑H‑Surgical‑Simulator

Cosmos‑H‑Surgical‑Simulator는 World Foundation Model (WFM) 로서 행동‑조건부 외과 로봇을 위한 모델입니다. 전통적인 시뮬레이터는 연부 조직, 반사, 혈액, 연기 등 현실 세계의 복잡성을 다루기 어렵습니다.

핵심 기능

  • Sim‑to‑Real 격차 극복: NVIDIA Cosmos Predict 2.5 2B 로부터 파인튜닝되어, 운동학적 행동으로부터 물리적으로 타당한 외과 영상을 직접 생성합니다.
  • 효율성 향상: 600번의 롤‑아웃이 시뮬레이션에서는 40 분에 끝나지만, 실제 벤치톱 방식으로는 2 일이 걸립니다.
  • WFM을 물리 시뮬레이터로 활용: 데이터로부터 조직 변형 및 도구 상호작용을 암묵적으로 학습합니다.
  • 합성 데이터 생성: 현실적인 합성 비디오‑액션 쌍을 생성해 데이터가 부족한 경우를 보강합니다.

cosmos_h_surg_sim

파인‑튜닝 세부 사항

  • 데이터셋: Open‑H‑Embodiment (9개의 로봇 구현, 32개의 데이터셋)
  • 컴퓨팅: 64 × A100 GPU, 약 10 000 GPU‑시간
  • 액션 스페이스: 통합 44‑차원 표현

4. 다음 단계: 외과 로봇을 위한 추론으로의 전환

Open‑H‑Embodiment 노력의 버전 2는 지각 제어를 넘어 추론이 가능한 자율성—즉 “외과 로봇 ChatGPT” 순간—을 목표로 합니다. 이를 통해 시스템은 긴 절차 전반에 걸쳐 설명하고, 계획을 세우며, 적응할 수 있게 됩니다. 이를 위해서는 의도, 결과, 실패 모드 등을 포착한 주석이 달린 작업 추적 데이터를 포함하도록 Open‑H‑Embodiment을 추론 준비 데이터로 확장해야 합니다.

커뮤니티가 이 미래를 함께 설계하도록 초대합니다. **Open‑H GitHub 저장소**에 방문하여 참여해 주세요.

5. 오늘 바로 시작하세요

아래 리소스에 접근하여 Open‑H‑Embodiment 데이터셋 및 모델을 활용하세요:

0 조회
Back to Blog

관련 글

더 보기 »