跳转至

Octopi:让 LLM"摸一摸"就能推理物体物理属性

📅 2024-05 · 🏛 NUS(+ UW)· 🏷 触觉-语言模型·LVLM 📌 一句话省流:给大语言模型接上触觉(GelSight),让它摸一下就说出软硬/粗糙/凹凸,并据此做常识推理(比如判断牛油果熟没熟)。关键发现:先让模型显式说出"物理属性",再推理,能涨 20–40%。 ≈ 打比方:像给 LLM 装了"手",而且教它"先描述手感、再下结论"。 🔬 详读:详读-Octopi 🎬 演示:https://octopi-tactile-lvlm.github.io/

🧰 对我们(可用性速判)

  • 对我们的用处"触觉→语言推理"那条腿的范例,与 卡片-Tactile-VLA 的"触觉 grounding + 常识"呼应。三件套 encoder→projection→LLM 可直接抄;更值得抄的是"先预测中间属性再推理"(触觉版思维链, 同 卡片-ECoT)。
  • 真实性:✅ 全文精读 + CoRL 2024 + 代码与数据集开源。
  • 训练/微调资源:CLIP ViT-L/14 编码器微调 + Vicuna 7b/13b + LoRA(轻量微调);三段式,中等。
  • 能借多少(开源):✅ 代码 + PhysiCLeAR 数据集(github.com/clear-nus/octopi),可直接用于触觉-语言任务。
  • 可用性结论架构可抄 / 数据集可直接用
  • 🔬 详读(全文):详读-Octopi

亮点(全文精读后定位)

  • 三件套:微调 CLIP ViT-L/14(视觉 prompt tuning) + 2 层投影 + Vicuna(7b/13b)。
  • PhysiCLeAR 数据集:408 段触觉视频 / 74 物体 / 3 属性(硬度·粗糙·凹凸),标注一致性高(ICC3k 0.894–0.979)。
  • 中间属性预测=触觉思维链:不训"属性描述(OPD)",理解/推理任务掉 20–40%——最有迁移价值的发现。
  • 真机落地:牛油果熟度判断 63%。

关键数字(每条带来源 [n])

  • [1] Octopi-13b:属性比较 PC 55.06% / 最高级 PSS 84.00% / 匹配 POM 60.43% / 场景推理 PSR 67.39%。✅📄
  • [2] 属性预测合计 55.26%(硬度 73.68/粗糙 78.95/凹凸 78.95);牛油果熟度 63%。✅📄
  • [3] 端到端 LoRA:13b 31.58%→55.26%;去掉中间属性描述(OPD) 理解/推理掉 20–40%。✅📄

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2405.02794,CoRL 2024(✅ 全文精读)。
  • 代码/数据:✅ 代码 + PhysiCLeAR 开源(clear-nus/octopi)。
  • 证据等级:A → 权重:中(偏上)

🧪 复现条件与成本(暂不亲做,只估)

  • 微调:CLIP 编码器 + Vicuna LoRA(三段式),中等算力。
  • 数据:PhysiCLeAR 已开放,可直接用。
  • 侧证判价值:顶会 ✅ / 代码+数据开源 ✅ / 真机验证 ✅。

💡 我的批注 / 判断(🤖,待人复核)

  • 最值得复用的一点:"先显式预测中间物理属性再推理"涨 20–40%——这就是触觉版 chain-of-thought,和 卡片-ECoT"先推理再动作"同源,应在我们触觉×VLA 里试。
  • ⚠️ 局限:GelSight 域差、只 3 属性、只 2 种探索动作(按压/旋转)——别把它当"全能触觉理解"。
  • PhysiCLeAR 是现成"触觉视频+属性标注"数据集,做触觉-语言任务可直接拿。

来源编号

  • [1][2][3] arXiv 2405.02794 全文(✅,见 详读-Octopi)。