跳转至

GR00T N1:NVIDIA 的人形机器人开源基础模型

📅 2025-03 · 🏛 NVIDIA · 🏷 VLA·双系统·人形 📌 一句话省流:人形机器人没有"互联网级数据",NVIDIA 就用数据金字塔——底层学人类视频、中层灌仿真/生成的合成数据、顶层用少量真机——训出一个跨本体通才;架构是慢 VLM(想,10Hz) + 快扩散动作头(动,120Hz)双系统,且全开源。 ≈ 打比方:用"看视频自学 + 仿真练手 + 少量真机点拨"凑出人形机器人的"驾照"。 🔬 详读:详读-GR00T-N1 🎬 Isaac GR00T · 代码

🧰 对我们(可用性速判)

  • 对我们的用处"用便宜数据补贵数据"的工业级范例——人类视频(潜动作)→合成→真机整条金字塔打通,且全开源。和 卡片-HPT(共享主干跨本体)、卡片-LAPA(潜动作)直接相关。双系统(10Hz 大脑 + 120Hz 小脑)正对应我们 _总览 的分层。
  • 真实性:✅ 全文精读(N1) + NVIDIA + 全开源。
  • 训练/微调资源:预训练 ~5 万 H100 小时(极重);但权重+数据+基准开放,下游可微调。
  • 能借多少(开源):✅ 模型权重 + 训练数据 + 仿真基准(GitHub/HF)。
  • 可用性结论直接可用(开源) / 数据金字塔思路可借
  • 🔬 详读(全文):详读-GR00T-N1

亮点(全文精读后定位)

  • 双系统:Eagle-2 VLM(System 2,10Hz,出推理 token) + 扩散 Transformer(System 1,流匹配 4 步,120Hz 出 16 步动作块)。
  • 数据金字塔:人类视频(VQ-VAE 潜动作) + 合成(神经轨迹 ~10× 增广 + 仿真 780k) + 真机(GR-1 88h + OXE + AgiBot)。
  • 跨本体潜动作:同一潜动作空间在 8 种本体(含人类)语义一致。
  • 消融:神经轨迹共训 +4~9%;低数据 LAPA 潜动作略优 IDM。

关键数字(每条带来源 [n])

  • [1] 基准:RoboCasa 32.1(vs DP 25.6)、DexMimicGen 66.5(vs 56.1)、GR-1 桌面 50.0(vs 32.7)。✅📄
  • [2] 真机 GR-1(13 任务):10% 数据 42.6% vs DP 10.2%;全量 76.8% vs 46.4%。✅📄
  • [3] System 1 120Hz/16 动作(63.9ms);System 2 10Hz;训练 ~5 万 H100 小时。✅📄
  • [4] 🟡 N1.5:DreamGen 基准 13.1%→38.3%(12 任务,~3×)——来自报道,待正文核。

🔄 N1.5 → N1.6 增量(⚠️ release-notes/博客/模型卡口径,无独立 arXiv,证据 B)

N1.5、N1.6 没有单独的论文全文——只有官方研究页 / NVIDIA 博客 / HF 模型卡。以下为据官方材料整理(2026-07-01),量化基准数字官方给得很少,谨慎引用。

N1.5(2025-06)vs N1: - VLM 与扩散 Transformer(DiT) 之间的 MLP connector 改造,提升仿真基准表现。 - 流匹配 + 世界建模双目标联合训练;采用 Eagle-2 的后训练数据策略(arXiv 2501.14818)。 - 主打更强的语言跟随 + 新本体快速适配。DreamGen 基准 13.1%→38.3%(见 [4])。

N1.6(2025 末–2026)vs N1.5: - 视觉换脑:用内部 Cosmos-2B VLM 变体(即 Cosmos Reason 系),原生分辨率/长宽比、不做 padding → 看得更清、推理/任务分解更强。 - DiT 翻倍32 层(N1.5 为 16 层);改用 state-relative(状态相对)动作预测(不再是绝对关节角/末端位姿) → 动作更平滑不抖;比 N1.5 收敛更快。 - 预训练时解冻 VLM 顶部 4 层(替换原 post-VLM 的 4 层 adapter)。 - 训练规模:预训练 300K steps / global batch 16384;后训练每任务 10K–30K steps / batch ≤1K。 - 数据:新增数千小时遥操作(双臂 YAM、AgiBot Genie-1、仿真 Galaxea R1 Pro、Unitree G1 全身 loco-manipulation)。 - 真机验证:YAM(轨道插入/洗碗/叠T恤/递方块)、Genie-1(叠T恤/清桌/装水果)、G1 全身 loco-manipulation(放马克杯/从抽屉车斗取物)。 - sim-to-real workflow:Isaac Lab 全身 RL + COMPASS 合成数据导航 + CUDA SLAM 视觉定位 → 零样本迁移到真人形、少量任务微调。 - 开源:GitHub NVIDIA/Isaac-GR00T(现主分支已到 N1.7)、HF nvidia/GR00T-N1.6-3B。 - ⚠️ 官方页未给成对的成功率对比数字;"更强/更平滑/收敛更快"多为定性描述,待第三方基准核。

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2503.14734(✅ 全文精读 N1)。
  • 代码/数据:✅ 全开源(NVIDIA/Isaac-GR00T)。
  • 证据等级:A(N1 全文)→ 权重:高N1.5/N1.6 增量段为证据 B(release-notes/博客/模型卡,无 arXiv,🟡 待一手核)。

🧪 复现条件与成本(暂不亲做,只估)

  • 预训练:~5 万 H100 小时(我们不可能从头训);
  • 下游:用开放权重微调,可行。
  • 侧证判价值:全开源 ✅ / 真机+基准实证 ✅ / 数据金字塔可借 ✅。

💡 我的批注 / 判断(🤖,待人复核)

  • 卡片-LAPA 强相关:GR00T 用潜动作从无动作人类视频学,是 LAPA 思路的大规模落地——"省真机数据"路线的标杆。
  • 双系统天然对应"大脑/小脑";触觉接 System 1 动作模块。若上人形要注意相机运动(呼应 卡片-LaWAM 的局限)。

来源编号

  • [1][2][3] arXiv 2503.14734 全文(✅,见 详读-GR00T-N1)。
  • [4] N1.5:NVIDIA 报道(🟡 待正文核)。