跳转至

机器人基础模型总综述(Foundation Models in Robotics)

📌 一句话:把"互联网级预训练的基础模型(LLM/VLM/扩散模型等)如何用进机器人"系统盘了一遍——覆盖感知 → 决策 → 控制整条自治栈,列应用、列挑战(机器人数据稀缺、安全/不确定性、实时性)。作者阵容很强(Firoozi、Majumdar、Yuke Zhu、Shuran Song、Jiajun Wu、Cewu Lu 等),是机器人 × 大模型的最佳"开篇地图"。

🧰 对我们(速判)

  • 适合谁读:刚进"机器人 × 大模型"想先建总图的人;给老板/新人讲"这领域有哪些块、卡在哪"时的引用源。
  • 能当地图吗:✅ 强地图。感知/决策/控制三段式 + 三大挑战,适合当本库 0-总览层的上位框架。
  • 新旧:2023-12 首发;偏奠基性总览,VLA/世界模型这一年的新进展需另查本库近期卡片。

关键(摘要级)

  • 📄 分类法:按自治栈分 = 感知(开放词汇识别)/ 决策(LLM 出代码、常识推理)/ 控制;横切三大挑战 = 机器人数据稀缺、安全与不确定性、实时执行。
  • 📄 主要结论:基础模型带来更强泛化与零样本能力,有望增强机器人各环节;但"机器人相关数据"稀缺是核心瓶颈。
  • 关联本库:可与 概念-模型架构基础 对照;本库各 VLA 卡片(卡片-OpenVLA卡片-RT-2卡片-GR00T-N1)是这张图里"决策/控制"格子的具体落点。

来源