type: 详读（中文全文摘要） domain: 大脑·模型对应卡片: 卡片-GR00T-N1 arxiv: "2503.14734" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · GR00T N1：NVIDIA 的人形机器人开源基础模型（2025-03）¶

一、问题与核心主张¶

System 2 视觉-语言模块：NVIDIA Eagle-2 VLM(总 2.2B，1.34B 用于此)；图像 224²(64 token/帧)+语言；10Hz；输出推理 token。
System 1 扩散 Transformer：流匹配动作生成(4 步推理)，交叉注意 VLM token、自注意动作序列；按本体的状态/动作 MLP 编解码；120Hz 出 16 步动作块(16 动作 63.9ms)。
两系统端到端联合训练。

基准(100 demo)	BC-Tf	Diffusion Policy	GR00T-N1-2B
RoboCasa	26.3	25.6	32.1
DexMimicGen	53.9	56.1	66.5
GR-1 桌面	16.1	32.7	50.0
- 真机 GR-1(13 任务)：10% 数据 42.6% vs DP 10.2%(+32.4pp)；全量 76.8% vs 46.4%(+30.4pp)。
- 预训练评测：新物体/双手协调 73.3–76.6%(无任务专训)。

NVIDIA 预印本(2503.14734)；模型权重 + 训练数据 + 仿真基准全开放(GitHub/HuggingFace)；训练 ~5 万 H100 小时。

跨本体 + 数据金字塔的工业级范例：和卡片-HPT("共享主干跨本体")、卡片-RT-1("吸收异构数据")同主题，但 GR00T 把人类视频(潜动作)→合成→真机整条金字塔打通，且全开源——值得作为"如何用便宜数据补贵数据"的参照。
双系统(慢 VLM 10Hz + 快扩散 120Hz)正好对应我们 _总览 的"大脑/小脑"分层；触觉可接在 System 1 动作模块。
与卡片-LAPA 直接相关：GR00T 用潜动作(LAPA 式)从无动作视频学，是 LAPA 思路的大规模落地。