type: 详读(中文全文摘要·技术报告) domain: 大脑·模型 对应卡片: 卡片-Gemini-Robotics arxiv: "2503.20020" 来源: 通读技术报告(arXiv HTML),🤖Claude 摘译,关键数字📄来自正文;非同行评审 date: 2026-06-30
详读 · Gemini Robotics:把 Gemini 2.0 延伸到物理世界(Google DeepMind 技术报告,2025-03)¶
⚠️ 这是技术报告(非同行评审),且模型未开源。
一、问题与核心主张¶
- 问题:多模态大模型在数字域强,但难迁到物理机器人控制(需 3D/空间/物理的具身推理 + 落地动作)。
- 主张:把 Gemini 2.0 的多模态推理延伸到物理世界,拆成两个模型——ER(具身推理) 与 VLA(直接出动作)。
二、两个模型¶
- Gemini Robotics-ER(具身推理):增强版 Gemini 2.0 Flash,强化空间/时间理解;会 2D 检测、指向(隐式 affordance)、轨迹预测、抓取预测、多视角对应、3D 框。新基准 ERQA(400 题):Gemini 2.0 Pro 48.3%(SOTA)、加 CoT 54.8%。
- Gemini Robotics(VLA):云端骨干(蒸馏自 ER,<160ms) + 本体解码器(本地);端到端 ~250ms、有效 50Hz(动作分块)。训练用数千小时 ALOHA 2 遥操 + 多模态网络数据。
三、关键结果¶
- 开箱:20 个短程任务显著超基线;擅长可变形物体(叠布、绕线)。
- 语言跟随:25 指令/5 场景,细粒度+未见物体上超 π0 复现版。
- 长程灵巧(每任务 2000–5000 高质演示专精后):午餐盒打包 100%;6 个长程任务平均 79%。
- 快速适配:8 子任务,7/8 在 ≤100 演示下 >70%,2 个达 100%。
- ER 基准:Paco-LVIS 部件指向 71.3%(vs Molmo 47.1)、Pixmo-Point 49.5(vs 12.5)、SUN-RGBD 3D 48.3 AP(SOTA)。
- 多本体:Franka 双臂 63%、Apollo 人形(初步)。
四、专精 / 安全¶
- 专精法:①窄而高质数据微调(2k–5k);②推理增强变体(把动作和"具身推理中间量/轨迹"挂钩,改善 OOD);③多本体适配。
- 含专门"负责任开发与安全"章节。
五、局限(作者自陈)¶
- 零样本高灵巧任务仍有限(叠裙子不微调会失败);云端延迟需本体解码器补;从零单任务扩散在长程任务上 0%——强依赖多样预训练初始化。
六、开源 / 出处¶
- 技术报告(arXiv 2503.20020);ERQA 基准开源(github.com/embodiedreasoning/ERQA);模型/权重未公开。
七、对我们(精读后判断,🤖)¶
- 它把"ER(具身推理)+VLA(动作)"拆开,正对应我们关心的"大脑要先会空间/物理推理再动作"——和 卡片-ECoT、卡片-MolmoAct(空间推理)同一潮流。
- 可借的是 ER 那套空间推理基准/能力(指向/3D/轨迹),可作触觉×VLA"大脑端推理"的对照;但模型闭源,拿不到权重。
- 清醒点:技术报告、数字是自评、闭源——当趋势与上界参考,别当可复现结论。