跳转至

Octopi:让 LLM"摸一摸"就能推理物体物理属性

📌 一句话省流:把触觉表征学习 + 大视觉语言模型接起来,用很少的语言微调就能预测并推理触觉输入——从而让具身系统通过接触获得物理属性、再做常识推理(如判断牛油果熟没熟)。三件套:触觉编码器 + 投影模块 + LLM,类似 LVLM。

🧰 对我们(速判)

  • 能不能借:这是"触觉→语言推理"那条腿的范例,与 卡片-Tactile-VLA 的"触觉 grounding + 常识"呼应。要让 VLA/LLM 理解触觉属性时可参考其架构(encoder→projection→LLM)。
  • 资源:附 PhysiCLeAR 数据集(GelSight 触觉视频 + 属性标注)可直接用于触觉-语言任务;强调"最少语言微调"。
  • 开源:项目页在线;代码/权重开放范围待核。
  • 证据:B(摘要级已核出处 + 项目页 + 配套数据集;未精读)。

关键(摘要级)

  • 📄 架构:① 触觉输入编码器 ② 投影模块 ③ LLM(LVLM 式三件套)。[1]
  • 📄 数据:PhysiCLeAR——物理/属性推理任务 + GelSight 标注触觉视频。[1]
  • 📄 评测显示 Octopi 能用"中间物理属性预测"提升各类触觉相关任务表现(含场景推理、牛油果熟度预测)。⚠️ 具体准确率数字待核全文。[1]

来源