跳转至

type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-GR00T-N1 arxiv: "2503.14734" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30


详读 · GR00T N1:NVIDIA 的人形机器人开源基础模型(2025-03)

一、问题与核心主张

  • 问题:扩规模需海量多样数据,但"没有人形机器人的互联网级数据集"。
  • 主张数据金字塔——底层网络视频、中层合成轨迹、顶层真机数据,叠出一个跨本体通才模型。

二、架构(双系统)

  • System 2 视觉-语言模块:NVIDIA Eagle-2 VLM(总 2.2B,1.34B 用于此);图像 224²(64 token/帧)+语言;10Hz;输出推理 token。
  • System 1 扩散 Transformer:流匹配动作生成(4 步推理),交叉注意 VLM token、自注意动作序列;按本体的状态/动作 MLP 编解码;120Hz 出 16 步动作块(16 动作 63.9ms)。
  • 两系统端到端联合训练。

三、数据金字塔

  • :人类第一视角视频(Ego4D/EPIC-KITCHENS 等),VQ-VAE 学潜动作
  • :合成——神经轨迹(微调图生视频模型,~10× 增广) + 仿真 780k 轨迹(~6500 小时);IDM 伪动作。
  • :真机(GR-1 人形 88 小时遥操) + OXE(RT-1/Bridge-v2 等) + AgiBot-Alpha。

四、关键结果

基准(100 demo) BC-Tf Diffusion Policy GR00T-N1-2B
RoboCasa 26.3 25.6 32.1
DexMimicGen 53.9 56.1 66.5
GR-1 桌面 16.1 32.7 50.0
- 真机 GR-1(13 任务):10% 数据 42.6% vs DP 10.2%(+32.4pp);全量 76.8% vs 46.4%(+30.4pp)。
- 预训练评测:新物体/双手协调 73.3–76.6%(无任务专训)。

五、消融

  • 神经轨迹+共训:RoboCasa +4.2~8.8%、真机平均 +5.8%。
  • 潜动作:低数据下 LAPA 略优 IDM,多数据 IDM 更强;潜动作空间在 8 种本体(含人类)上语义一致("右臂左移")。

六、局限(作者自陈)

  • 聚焦短程桌面操作,长程 loco-manipulation 待解;合成数据难兼顾多样/反事实又守物理;人形硬件控制复杂。

七、开源 / 出处

  • NVIDIA 预印本(2503.14734);模型权重 + 训练数据 + 仿真基准全开放(GitHub/HuggingFace);训练 ~5 万 H100 小时。

八、对我们(精读后判断,🤖)

  • 跨本体 + 数据金字塔的工业级范例:和 卡片-HPT("共享主干跨本体")、卡片-RT-1("吸收异构数据")同主题,但 GR00T 把人类视频(潜动作)→合成→真机整条金字塔打通,且全开源——值得作为"如何用便宜数据补贵数据"的参照。
  • 双系统(慢 VLM 10Hz + 快扩散 120Hz)正好对应我们 _总览 的"大脑/小脑"分层;触觉可接在 System 1 动作模块。
  • 卡片-LAPA 直接相关:GR00T 用潜动作(LAPA 式)从无动作视频学,是 LAPA 思路的大规模落地。