跳转至

机器人知识库

Gemini Robotics —— 把 Gemini 2.0 带进物理世界的 VLA（技术报告·闭源）

Gemini Robotics：把 Gemini 2.0 延伸到物理世界¶

📅 2025-03 · 🏛 Google DeepMind · 🏷 VLA·具身推理(技术报告) 📌 一句话省流：把 Gemini 2.0 大模型延伸去开机器人，拆成两个——ER 管"看懂空间会推理"(指物体/估 3D/画轨迹)、VLA 管"出动作"(云端大脑 <160ms + 本体解码器，50Hz)；强泛化、能听细指令，长程任务专精后平均 79%。 ≈ 打比方：让 Gemini 长出"空间感的眼睛"和"会动的手"。 🔬 详读：详读-Gemini-Robotics 🎬 官方博客 ⚠️ 技术报告(非同行评审) + 模型闭源：数字为官方自评，仅 ERQA 基准开源。

🧰 对我们（可用性速判）¶

对我们的用处：趋势与能力上界参考，不是工具。可借的是 ER 那套"具身空间推理"能力/基准(指向/3D/轨迹)，作触觉×VLA"大脑端推理"的对照(和卡片-MolmoAct、卡片-ECoT 同潮流)。
真实性：通读技术报告，结论可信但数字是自评、未同行评审。
训练/微调资源：DeepMind 级数据/算力 + ALOHA 2 数千小时，自建不可比。
能借多少(开源)：❌ 模型闭源；仅 ERQA 基准开源。
可用性结论：仅趋势/上界参考（拿不到模型）。
🔬 详读（全文）：详读-Gemini-Robotics

亮点（通读技术报告后定位）¶

ER + VLA 分工：ER(增强 Gemini 2.0 Flash)做具身推理；VLA 云端骨干+本体解码器，~250ms/50Hz。
强泛化：视觉/指令(含多语言、错字)/动作三类泛化，基线常崩它非零。
长程灵巧：专精(2k–5k 演示)后午餐盒打包 100%、6 任务均值 79%。
关键洞见：从零单任务扩散在长程任务 0% → 强依赖多样预训练初始化。

关键数字（每条带来源 [n]）¶

[1] ERQA 基准：Gemini 2.0 Pro 48.3%(SOTA)、加 CoT 54.8%。✅📄
[2] 长程 6 任务均值 79%(午餐盒 100%)；快速适配 7/8 任务 ≤100 演示 >70%。✅📄
[3] ER 基准：Paco-LVIS 71.3(vs Molmo 47.1)、Pixmo-Point 49.5(vs 12.5)、SUN-RGBD 3D 48.3 AP(SOTA)。✅📄
[4] 多本体：Franka 双臂 63%、Apollo 人形(初步)。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2503.20020，技术报告(✅ 通读全文；非同行评审)。
代码/权重：❌ 模型闭源；ERQA 基准开源。
证据等级：A（DeepMind 详尽报告）→ 权重：高；但数字自评、闭源。

🧪 复现条件与成本（暂不亲做，只估）¶

不可复现：闭源 + DeepMind 级算力。价值在趋势/能力边界。

💡 我的批注 / 判断（🤖，待人复核）¶

它把"具身推理(ER)"单拎出来，印证"大脑要先会空间/物理推理再动作"——这正是我们触觉×VLA 该补的(让大脑会用触觉做空间/接触推理)。
清醒点：技术报告 + 自评 + 闭源——当上界与方向看，别当可复现结论。关联卡片-Helix(工业 VLA 对照)。

来源编号¶

[1][2][3][4] arXiv 2503.20020 技术报告（✅，见详读-Gemini-Robotics）。