Nvidia发布DreamDojo,一种在44,000小时人类视频上训练的机器人‘world model’

发布: (2026年2月9日 GMT+8 17:30)
10 分钟阅读

请提供您希望翻译的完整文本内容,我会按照要求将其翻译成简体中文并保留原有的格式。

Nvidia 宣布 DreamDojo – 用于教导机器人的全新 AI 系统

一支由 Nvidia 领衔的研究团队发布了 DreamDojo,这是一套通过观看数万小时的人类视频来教机器人与物理世界交互的 AI 系统。这一突破有望显著降低训练下一代类人机器人的时间和成本。

研究概览

作者将 DreamDojo 描述为 “首个此类机器人世界模型,在后训练阶段能够对多样化的物体和环境表现出强大的泛化能力”。

核心数据集 – DreamDojo‑HV

  • 规模: 44 千小时的多样化人类第一人称视频——迄今为止用于世界模型预训练的最大数据集。
  • 相较于以往数据集的增长:
    • 15× 更长的时长
    • 96× 更多的技能
    • 2 000× 更多的场景

该数据集 DreamDojo‑HV 为模型卓越的泛化能力提供了基础。

可视化示例

Simulated robot placing a cup into a cardboard box after training on 44,000 hours of human video (Credit: Nvidia)

说明: 一个模拟机器人在车间环境中将杯子放入纸板箱——这是 DreamDojo 在经过 44,000 小时人类视频训练后能够建模的数千种场景之一。(来源:Nvidia)

Source:

在让机器人像人类一样看见的两阶段训练系统内部

该系统分为两个独立阶段

  1. 预训练(DreamDojo)

    • 从大规模的人类视频数据集中学习全面的物理知识
    • 使用潜在动作捕捉人类运动的底层物理规律。
  2. 后训练

    • 目标机器人形态上使用连续的机器人动作对模型进行微调。
    • 弥合人类衍生的物理学与机器人特定硬件之间的差距。

为什么这对企业重要

  • 数据瓶颈得到解决 – 传统的机器人在非结构化环境中的操作需要大量机器人专属的示范数据,这些数据成本高、收集耗时。
  • 利用已有的人类视频 – DreamDojo 让机器人在实际接触物体之前就能通过观察学习,从而显著降低数据收集的开销。

技术突破

突破细节
速度蒸馏后实现实时交互,10 FPS,持续时间 > 1 分钟
可扩展性已在多个平台上演示:
  • GR‑1
  • G1
  • AgiBot
  • YAM
逼真的 rollout生成条件动作 rollout,覆盖广泛的环境和物体交互。

实际意义

  • 实时遥操作 – 10 FPS 的能力支持响应迅速的远程控制。
  • 即时规划 – 机器人能够在实时中适应新任务和新环境。
  • 跨平台适用性 – 同一训练流水线可用于多种类人形机器人,简化了车队部署。

参考文献

为什么英伟达在 AI 基础设施支出飙升时大举押注机器人技术

该发布正值英伟达机器人愿景的关键时刻——也是更广泛 AI 行业的关键节点。

  • 达沃斯宣布 – 在上个月达沃斯的 世界经济论坛 上,CEO 黄仁勋将 AI 机器人称为 “一代难得的机遇”,尤其适用于制造业基础雄厚的地区。
    (Source: WEF article)

  • 十年加速 – 黄仁勋在 Digitimes 采访中表示,未来十年将是 “机器人技术加速发展的关键时期”。
    (Source: Digitimes interview)

财务赌注

  • 在 CNBC 的 Halftime Report(2 月 6 日)中,黄仁勋指出,科技行业的资本支出今年可能达到 6600 亿美元,来自主要的超大规模云服务商。他形容这笔支出是 “合理、适当且可持续的”。
    (Source: CNBC report)

  • 他称当前时刻是 “人类历史上最大规模的基础设施建设”, 包括 Meta、Amazon、Google 和 Microsoft 在内的公司正大幅提升 AI 支出。

对机器人领域的影响

指标 / 发展细节
创业公司融资机器人初创企业在 2025 年筹集了 创纪录的 265 亿美元(Dealroom)。
欧洲合作伙伴关系工业巨头 西门子奔驰沃尔沃 在过去一年宣布了机器人合作项目。
特斯拉愿景伊隆·马斯克声称 ≈80 % 的特斯拉未来价值将来自其 Optimus 类人机器人。
行业趋势AI 相关资本支出的激增正推动硬件、软件以及机器人系统集成的快速进步。

巨额 AI 基础设施投资与英伟达等公司战略领导的融合正在重塑机器人技术的未来,使该行业在未来十年迎来前所未有的增长。

DreamDojo 如何改变企业机器人部署与测试

对于评估类人机器人的技术决策者而言,DreamDojo 最直接的价值在于其 仿真能力。研究人员强调了以下下游应用:

  • 在不进行真实部署的情况下进行可靠的策略评估
  • 基于模型的规划以在测试时进行改进

这些能力可以让公司在投入昂贵的实体试验之前,广泛模拟机器人行为

为什么这很重要

实验室演示与工厂现场之间的差距仍然很大。一个在受控条件下表现完美的机器人,往往会在真实环境的不可预测变化中遇到困难——不同的光照、陌生的物体、意外的障碍物。

DreamDojo 通过在 44,000 小时的多样化人类视频 上进行训练来解决这一问题,涵盖:

  • 数千个场景
  • 接近 100 种不同技能

其目标是构建一种 通用的物理直觉,使机器人 具备适应性而非脆弱性

研究团队与可用性

  • 主要作者: Linxi “Jim” Fan、Joel Jang、Yuke Zhu
  • 共同第一作者: Shenyuan Gao、William Liang

团队已表示代码 将公开发布,但尚未提供具体时间表。

更大的图景:英伟达从游戏巨头到机器人强国的转型

DreamDojohttps://dreamdojo-world.github.io/)是否会转化为商业机器人产品还有待观察,但这项研究已经显示出英伟达的野心正朝着超越游戏根基的方向发展。

正如 Kyle Barr 本月早些时候在 Gizmodohttps://gizmodo.com/you-couldnt-afford-nvidias-next-gen-gpus-even-if-you-wanted-them-2000718884)所指出的,英伟达现在将“任何与游戏和‘个人电脑’相关的事物”视为“英伟达季度报表中的异常值”。

为什么会有这种转变?

DreamDojo 暗示公司将类人机器人视为下一个前沿领域,在那里其 AI 专业知识和芯片优势可以相互融合。

核心洞见

DreamDojo 核心的 44,000 小时人类视频不仅是一个技术基准。它体现了一种理论:机器人可以通过观察我们在现实世界中的生活来学习如何在我们的世界中导航。事实证明,这些机器已经在悄悄记笔记了。

0 浏览
Back to Blog

相关文章

阅读更多 »