type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-GR00T-N1 arxiv: "2503.14734" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30
详读 · GR00T N1:NVIDIA 的人形机器人开源基础模型(2025-03)¶
一、问题与核心主张¶
- 问题:扩规模需海量多样数据,但"没有人形机器人的互联网级数据集"。
- 主张:数据金字塔——底层网络视频、中层合成轨迹、顶层真机数据,叠出一个跨本体通才模型。
二、架构(双系统)¶
- System 2 视觉-语言模块:NVIDIA Eagle-2 VLM(总 2.2B,1.34B 用于此);图像 224²(64 token/帧)+语言;10Hz;输出推理 token。
- System 1 扩散 Transformer:流匹配动作生成(4 步推理),交叉注意 VLM token、自注意动作序列;按本体的状态/动作 MLP 编解码;120Hz 出 16 步动作块(16 动作 63.9ms)。
- 两系统端到端联合训练。
三、数据金字塔¶
- 底:人类第一视角视频(Ego4D/EPIC-KITCHENS 等),VQ-VAE 学潜动作。
- 中:合成——神经轨迹(微调图生视频模型,~10× 增广) + 仿真 780k 轨迹(~6500 小时);IDM 伪动作。
- 顶:真机(GR-1 人形 88 小时遥操) + OXE(RT-1/Bridge-v2 等) + AgiBot-Alpha。
四、关键结果¶
| 基准(100 demo) | BC-Tf | Diffusion Policy | GR00T-N1-2B |
|---|---|---|---|
| RoboCasa | 26.3 | 25.6 | 32.1 |
| DexMimicGen | 53.9 | 56.1 | 66.5 |
| GR-1 桌面 | 16.1 | 32.7 | 50.0 |
| - 真机 GR-1(13 任务):10% 数据 42.6% vs DP 10.2%(+32.4pp);全量 76.8% vs 46.4%(+30.4pp)。 | |||
| - 预训练评测:新物体/双手协调 73.3–76.6%(无任务专训)。 |
五、消融¶
- 神经轨迹+共训:RoboCasa +4.2~8.8%、真机平均 +5.8%。
- 潜动作:低数据下 LAPA 略优 IDM,多数据 IDM 更强;潜动作空间在 8 种本体(含人类)上语义一致("右臂左移")。
六、局限(作者自陈)¶
- 聚焦短程桌面操作,长程 loco-manipulation 待解;合成数据难兼顾多样/反事实又守物理;人形硬件控制复杂。
七、开源 / 出处¶
- NVIDIA 预印本(2503.14734);模型权重 + 训练数据 + 仿真基准全开放(GitHub/HuggingFace);训练 ~5 万 H100 小时。