跳转至

Gemini Robotics:把 Gemini 2.0 延伸到物理世界

📅 2025-03 · 🏛 Google DeepMind · 🏷 VLA·具身推理(技术报告) 📌 一句话省流:把 Gemini 2.0 大模型延伸去开机器人,拆成两个——ER 管"看懂空间会推理"(指物体/估 3D/画轨迹)、VLA 管"出动作"(云端大脑 <160ms + 本体解码器,50Hz);强泛化、能听细指令,长程任务专精后平均 79%。 ≈ 打比方:让 Gemini 长出"空间感的眼睛"和"会动的手"。 🔬 详读:详读-Gemini-Robotics 🎬 官方博客 ⚠️ 技术报告(非同行评审) + 模型闭源:数字为官方自评,仅 ERQA 基准开源。

🧰 对我们(可用性速判)

  • 对我们的用处趋势与能力上界参考,不是工具。可借的是 ER 那套"具身空间推理"能力/基准(指向/3D/轨迹),作触觉×VLA"大脑端推理"的对照(和 卡片-MolmoAct卡片-ECoT 同潮流)。
  • 真实性:通读技术报告,结论可信但数字是自评、未同行评审。
  • 训练/微调资源:DeepMind 级数据/算力 + ALOHA 2 数千小时,自建不可比。
  • 能借多少(开源):❌ 模型闭源;仅 ERQA 基准开源
  • 可用性结论仅趋势/上界参考(拿不到模型)。
  • 🔬 详读(全文):详读-Gemini-Robotics

亮点(通读技术报告后定位)

  • ER + VLA 分工:ER(增强 Gemini 2.0 Flash)做具身推理;VLA 云端骨干+本体解码器,~250ms/50Hz。
  • 强泛化:视觉/指令(含多语言、错字)/动作三类泛化,基线常崩它非零。
  • 长程灵巧:专精(2k–5k 演示)后午餐盒打包 100%、6 任务均值 79%。
  • 关键洞见:从零单任务扩散在长程任务 0% → 强依赖多样预训练初始化。

关键数字(每条带来源 [n])

  • [1] ERQA 基准:Gemini 2.0 Pro 48.3%(SOTA)、加 CoT 54.8%。✅📄
  • [2] 长程 6 任务均值 79%(午餐盒 100%);快速适配 7/8 任务 ≤100 演示 >70%。✅📄
  • [3] ER 基准:Paco-LVIS 71.3(vs Molmo 47.1)、Pixmo-Point 49.5(vs 12.5)、SUN-RGBD 3D 48.3 AP(SOTA)。✅📄
  • [4] 多本体:Franka 双臂 63%、Apollo 人形(初步)。✅📄

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2503.20020技术报告(✅ 通读全文;非同行评审)。
  • 代码/权重:❌ 模型闭源;ERQA 基准开源。
  • 证据等级:A(DeepMind 详尽报告)→ 权重:高;但数字自评、闭源。

🧪 复现条件与成本(暂不亲做,只估)

  • 不可复现:闭源 + DeepMind 级算力。价值在趋势/能力边界。

💡 我的批注 / 判断(🤖,待人复核)

  • 它把"具身推理(ER)"单拎出来,印证"大脑要先会空间/物理推理再动作"——这正是我们触觉×VLA 该补的(让大脑会用触觉做空间/接触推理)。
  • 清醒点:技术报告 + 自评 + 闭源——当上界与方向看,别当可复现结论。关联 卡片-Helix(工业 VLA 对照)。

来源编号