首个医疗机器人数据集及用于医疗机器人的基础物理 AI 模型

发布: 1个月前 (2026年3月17日 GMT+8 05:58)

8 分钟阅读

原文: Hugging Face Blog

Source: Hugging Face Blog

作者

介绍 Open‑H‑Embodiment：首个由社区合作构建的医疗机器人开放数据集
1. Open‑H‑Embodiment
- 参与者
- 数据集概述
2. GR00T‑H：用于外科机器人手术的视觉‑语言‑动作模型
- 架构设计选择
3. Cosmos‑H‑Surgical‑Simulator
- 关键功能
- 微调细节
4. 接下来是什么：面向外科机器人推理的方向
5. 今日开始使用

Introducing Open‑H‑Embodiment: The First Healthcare Robotics Open Dataset, Built by a Community Collaboration

Authors: Nigel Nelson, Lukas Zbinden, Mostafa Toloui, Sean Huver

医疗 AI 主要是基于感知的，侧重于解释信号并对病理/解剖进行分类或分割的模型。然而，医疗同样涉及“行动”。缺乏具身性、接触动力学和闭环控制的静态、仅感知的数据集不足以满足该领域的需求。该领域现在需要：

标准化的机器人本体
同步的视觉–力–运动学数据
仿真到真实的配对
跨具身基准

这些要素构成了 Physical AI 的基础。

1. Open‑H‑Embodiment

Open‑H‑Embodiment 是一个社区驱动的数据集计划，提供一个开放、共享的基础，用于训练和评估外科机器人与超声的 AI 自主性和世界基础模型。

该项目由一个指导委员会发起，成员包括 Prof. Axel Krieger（约翰斯·霍普金斯大学）、Prof. Nassir Navab（慕尼黑工业大学）和 Dr. Mahdi Azizian（英伟达），目前已覆盖 35 家机构。

Participants

Balgrist, CMR Surgical, The Chinese University of Hong Kong, Great Bay University, Hong Kong Baptist University, Hamlyn, ImFusion, Johns Hopkins University, Leeds University, Mohamed bin Zayed University of Artificial Intelligence, Moon Surgical, NVIDIA, Northwell Health, Óbuda University, The Hong Kong Polytechnic University, Qilu Hospital of Shandong University, Rob Surgical, Sanoscience, Surgical Data Science Collective, Semaphor Surgical, Stanford, Dresden University of Technology, Technical University of Munich, Tuodao, Turin, University of British Columbia, UC Berkeley, UC San Diego, University of Illinois Chicago, University of Tennessee, University of Texas, Vanderbilt, and Virtual Incision.

The Dataset

778 小时 的 CC‑BY‑4.0 许可的医疗机器人训练数据（主要是外科机器人，还包括超声和结肠镜自主性）。
包含仿真、台式练习（例如缝合）以及真实临床手术。
使用商业机器人（CMR Surgical、Rob Surgical、Tuodao）和研究机器人（dVRK、Franka、Kuka）。
与两款基于该数据训练的全新宽松开源模型一起发布。

Open‑H‑Embodiment sample data
Open‑H‑Embodiment 示例数据

2. GR00T‑H：用于外科机器人手术的视觉‑语言‑动作模型

GR00T‑H 是 Isaac GR00T N 系列视觉‑语言‑动作（VLA）模型的衍生版本。它在大约 600 小时 的 Open‑H‑Embodiment 数据上进行训练，是首个用于外科机器人任务的策略模型。

基于 NVIDIA 的开源生态系统，Isaac GR00T‑H 采用 Cosmos Reason 2 2B 作为其视觉‑语言模型（VLM）骨干。

GR00T‑H 架构示意图

架构设计选择

外科机器人需要极高的精度，但专用硬件（例如电缆驱动系统）使得模仿学习（IL）变得困难。GR00T‑H 通过以下四项关键设计来应对这些挑战：

独特的具身投影器 – 可学习的 MLP 将每台机器人的特定运动学映射到共享的、归一化的动作空间。
状态丢弃（100 %） – 在推理阶段丢弃本体感知输入，生成每个系统的学习偏置项，从而提升真实环境下的性能。
相对末端执行器（EEF）动作 – 训练使用统一的相对末端执行器（EEF）动作空间，以克服运动学不一致性。
任务提示中的元数据 – 将仪器名称和控制索引映射直接注入 VLM 任务提示中。

GR00T‑H 的原型已在 SutureBot 基准 中展示了执行完整端到端缝合的能力，体现了稳健的长时程灵巧性。

GR00T‑H 执行缝合（GIF）
GR00T‑H 在 SutureBot 基准中完成一次缝合

performing end-to-end suturing.

3. Cosmos‑H‑Surgical‑Simulator

Cosmos‑H‑Surgical‑Simulator 是一个用于动作条件外科机器人手术的 World Foundation Model (WFM)。传统模拟器在处理软组织、反射、血液和烟雾等真实世界的复杂情况时常常力不从心。

关键能力

克服仿真‑真实差距： 通过对 NVIDIA Cosmos Predict 2.5 2B 进行微调，能够直接从运动学动作生成物理上合理的手术视频。
效率提升： 600 次 rollout 只需 40 分钟 的仿真时间，而使用真实桌面实验则需要 2 天。
WFM 作为物理模拟器： 隐式学习组织变形和工具交互的物理规律。
合成数据生成： 生成逼真的合成视频‑动作对，以补充数据不足的场景。

微调细节

数据集： Open‑H‑Embodiment（9 种机器人形态，32 个数据集）
计算资源： 64 × A100 GPU，约 10 000 GPU‑小时
动作空间： 统一的 44 维表示

4. What Is Next: Towards Reasoning for Surgical Robotics

Open‑H‑Embodiment 项目的第 2 版旨在超越感知控制，实现 具备推理能力的自主性——一个“外科机器人 ChatGPT”时刻——使系统能够在长时间的手术过程中进行解释、规划和适应。这需要将 Open‑H‑Embodiment 扩展为可用于推理的数据，配以标注的任务轨迹，以捕获意图、结果和失效模式。

我们邀请社区共同塑造这一未来。请访问我们的 Open‑H GitHub 仓库 参与其中。

5. 今日开始

访问以下资源，以使用 Open‑H‑Embodiment 数据集和模型：

Open‑H‑Embodiment – HF Dataset • GitHub Repo
NVIDIA Isaac GR00T‑H model – HF Model • GitHub Repo
NVIDIA Cosmos‑H‑Surgical‑Simulator – HF Model • GitHub Repo
Cosmos Cookbook – 逐步工作流，帮助您为自己的 embodiment 构建 WFM
Explore on Hugging Face – 在 Hugging Face 和 GitHub 上浏览全新的开放 Cosmos 模型和数据集，或在 build.nvidia.com 上试用模型。