跳转至

机器人知识库

详读 Gemini Robotics

type: 详读（中文全文摘要·技术报告） domain: 大脑·模型对应卡片: 卡片-Gemini-Robotics arxiv: "2503.20020" 来源: 通读技术报告(arXiv HTML)，🤖Claude 摘译，关键数字📄来自正文；非同行评审 date: 2026-06-30

详读 · Gemini Robotics：把 Gemini 2.0 延伸到物理世界（Google DeepMind 技术报告，2025-03）¶

⚠️ 这是技术报告(非同行评审)，且模型未开源。

一、问题与核心主张¶

问题：多模态大模型在数字域强，但难迁到物理机器人控制(需 3D/空间/物理的具身推理 + 落地动作)。
主张：把 Gemini 2.0 的多模态推理延伸到物理世界，拆成两个模型——ER(具身推理) 与 VLA(直接出动作)。

二、两个模型¶

Gemini Robotics-ER(具身推理)：增强版 Gemini 2.0 Flash，强化空间/时间理解；会 2D 检测、指向(隐式 affordance)、轨迹预测、抓取预测、多视角对应、3D 框。新基准 ERQA(400 题)：Gemini 2.0 Pro 48.3%(SOTA)、加 CoT 54.8%。
Gemini Robotics(VLA)：云端骨干(蒸馏自 ER，<160ms) + 本体解码器(本地)；端到端 ~250ms、有效 50Hz(动作分块)。训练用数千小时 ALOHA 2 遥操 + 多模态网络数据。

三、关键结果¶

开箱：20 个短程任务显著超基线；擅长可变形物体(叠布、绕线)。
语言跟随：25 指令/5 场景，细粒度+未见物体上超 π0 复现版。
长程灵巧(每任务 2000–5000 高质演示专精后)：午餐盒打包 100%；6 个长程任务平均 79%。
快速适配：8 子任务，7/8 在 ≤100 演示下 >70%，2 个达 100%。
ER 基准：Paco-LVIS 部件指向 71.3%(vs Molmo 47.1)、Pixmo-Point 49.5(vs 12.5)、SUN-RGBD 3D 48.3 AP(SOTA)。
多本体：Franka 双臂 63%、Apollo 人形(初步)。

四、专精 / 安全¶

专精法：①窄而高质数据微调(2k–5k)；②推理增强变体(把动作和"具身推理中间量/轨迹"挂钩，改善 OOD)；③多本体适配。
含专门"负责任开发与安全"章节。

五、局限（作者自陈）¶

零样本高灵巧任务仍有限(叠裙子不微调会失败)；云端延迟需本体解码器补；从零单任务扩散在长程任务上 0%——强依赖多样预训练初始化。

六、开源 / 出处¶

技术报告(arXiv 2503.20020)；ERQA 基准开源(github.com/embodiedreasoning/ERQA)；模型/权重未公开。

七、对我们（精读后判断，🤖）¶

它把"ER(具身推理)+VLA(动作)"拆开，正对应我们关心的"大脑要先会空间/物理推理再动作"——和卡片-ECoT、卡片-MolmoAct(空间推理)同一潮流。
可借的是 ER 那套空间推理基准/能力(指向/3D/轨迹)，可作触觉×VLA"大脑端推理"的对照；但模型闭源，拿不到权重。
清醒点：技术报告、数字是自评、闭源——当趋势与上界参考，别当可复现结论。