GR00T N1：NVIDIA 的人形机器人开源基础模型¶

📅 2025-03 · 🏛 NVIDIA · 🏷 VLA·双系统·人形 📌 一句话省流：人形机器人没有"互联网级数据"，NVIDIA 就用数据金字塔——底层学人类视频、中层灌仿真/生成的合成数据、顶层用少量真机——训出一个跨本体通才；架构是慢 VLM(想,10Hz) + 快扩散动作头(动,120Hz)双系统，且全开源。 ≈ 打比方：用"看视频自学 + 仿真练手 + 少量真机点拨"凑出人形机器人的"驾照"。 🔬 详读：详读-GR00T-N1 🎬 Isaac GR00T · 代码

🧰 对我们（可用性速判）¶

对我们的用处："用便宜数据补贵数据"的工业级范例——人类视频(潜动作)→合成→真机整条金字塔打通，且全开源。和卡片-HPT(共享主干跨本体)、卡片-LAPA(潜动作)直接相关。双系统(10Hz 大脑 + 120Hz 小脑)正对应我们 _总览 的分层。
真实性：✅ 全文精读(N1) + NVIDIA + 全开源。
训练/微调资源：预训练 ~5 万 H100 小时(极重)；但权重+数据+基准开放，下游可微调。
能借多少(开源)：✅ 模型权重 + 训练数据 + 仿真基准(GitHub/HF)。
可用性结论：直接可用(开源) / 数据金字塔思路可借。
🔬 详读（全文）：详读-GR00T-N1

亮点（全文精读后定位）¶

双系统：Eagle-2 VLM(System 2，10Hz，出推理 token) + 扩散 Transformer(System 1，流匹配 4 步，120Hz 出 16 步动作块)。
数据金字塔：人类视频(VQ-VAE 潜动作) + 合成(神经轨迹 ~10× 增广 + 仿真 780k) + 真机(GR-1 88h + OXE + AgiBot)。
跨本体潜动作：同一潜动作空间在 8 种本体(含人类)语义一致。
消融：神经轨迹共训 +4~9%；低数据 LAPA 潜动作略优 IDM。

关键数字（每条带来源 [n]）¶

[1] 基准：RoboCasa 32.1(vs DP 25.6)、DexMimicGen 66.5(vs 56.1)、GR-1 桌面 50.0(vs 32.7)。✅📄
[2] 真机 GR-1(13 任务)：10% 数据 42.6% vs DP 10.2%；全量 76.8% vs 46.4%。✅📄
[3] System 1 120Hz/16 动作(63.9ms)；System 2 10Hz；训练 ~5 万 H100 小时。✅📄
[4] 🟡 N1.5：DreamGen 基准 13.1%→38.3%(12 任务,~3×)——来自报道，待正文核。

🔄 N1.5 → N1.6 增量（⚠️ release-notes/博客/模型卡口径，无独立 arXiv，证据 B）¶

N1.5、N1.6 没有单独的论文全文——只有官方研究页 / NVIDIA 博客 / HF 模型卡。以下为据官方材料整理(2026-07-01)，量化基准数字官方给得很少，谨慎引用。

N1.5（2025-06）vs N1： - VLM 与扩散 Transformer(DiT) 之间的 MLP connector 改造，提升仿真基准表现。 - 流匹配 + 世界建模双目标联合训练；采用 Eagle-2 的后训练数据策略(arXiv 2501.14818)。 - 主打更强的语言跟随 + 新本体快速适配。DreamGen 基准 13.1%→38.3%(见 [4])。

N1.6（2025 末–2026）vs N1.5： - 视觉换脑：用内部 Cosmos-2B VLM 变体(即 Cosmos Reason 系)，原生分辨率/长宽比、不做 padding → 看得更清、推理/任务分解更强。 - DiT 翻倍：32 层(N1.5 为 16 层)；改用 state-relative(状态相对)动作预测(不再是绝对关节角/末端位姿) → 动作更平滑不抖；比 N1.5 收敛更快。 - 预训练时解冻 VLM 顶部 4 层(替换原 post-VLM 的 4 层 adapter)。 - 训练规模：预训练 300K steps / global batch 16384；后训练每任务 10K–30K steps / batch ≤1K。 - 数据：新增数千小时遥操作(双臂 YAM、AgiBot Genie-1、仿真 Galaxea R1 Pro、Unitree G1 全身 loco-manipulation)。 - 真机验证：YAM(轨道插入/洗碗/叠T恤/递方块)、Genie-1(叠T恤/清桌/装水果)、G1 全身 loco-manipulation(放马克杯/从抽屉车斗取物)。 - sim-to-real workflow：Isaac Lab 全身 RL + COMPASS 合成数据导航 + CUDA SLAM 视觉定位 → 零样本迁移到真人形、少量任务微调。 - 开源：GitHub NVIDIA/Isaac-GR00T(现主分支已到 N1.7)、HF nvidia/GR00T-N1.6-3B。 - ⚠️ 官方页未给成对的成功率对比数字；"更强/更平滑/收敛更快"多为定性描述，待第三方基准核。

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2503.14734（✅ 全文精读 N1）。
代码/数据：✅ 全开源(NVIDIA/Isaac-GR00T)。
证据等级：A（N1 全文）→ 权重：高；N1.5/N1.6 增量段为证据 B（release-notes/博客/模型卡，无 arXiv，🟡 待一手核）。

🧪 复现条件与成本（暂不亲做，只估）¶

预训练：~5 万 H100 小时(我们不可能从头训)；
下游：用开放权重微调，可行。
侧证判价值：全开源 ✅ / 真机+基准实证 ✅ / 数据金字塔可借 ✅。

💡 我的批注 / 判断（🤖，待人复核）¶

与卡片-LAPA 强相关：GR00T 用潜动作从无动作人类视频学，是 LAPA 思路的大规模落地——"省真机数据"路线的标杆。
双系统天然对应"大脑/小脑"；触觉接 System 1 动作模块。若上人形要注意相机运动(呼应卡片-LaWAM 的局限)。

来源编号¶

[1][2][3] arXiv 2503.14734 全文（✅，见详读-GR00T-N1）。
[4] N1.5：NVIDIA 报道（🟡 待正文核）。