跳转至

机器人知识库

Octopi：用大触觉-语言模型做物体属性推理（含 PhysiCLeAR 数据集）

Octopi：让 LLM"摸一摸"就能推理物体物理属性¶

📌 一句话省流：把触觉表征学习 + 大视觉语言模型接起来，用很少的语言微调就能预测并推理触觉输入——从而让具身系统通过接触获得物理属性、再做常识推理（如判断牛油果熟没熟）。三件套：触觉编码器 + 投影模块 + LLM，类似 LVLM。

🧰 对我们（速判）¶

能不能借：这是"触觉→语言推理"那条腿的范例，与卡片-Tactile-VLA 的"触觉 grounding + 常识"呼应。要让 VLA/LLM 理解触觉属性时可参考其架构（encoder→projection→LLM）。
资源：附 PhysiCLeAR 数据集（GelSight 触觉视频 + 属性标注）可直接用于触觉-语言任务；强调"最少语言微调"。
开源：项目页在线；代码/权重开放范围待核。
证据：B（摘要级已核出处 + 项目页 + 配套数据集；未精读）。

关键（摘要级）¶

📄 架构：① 触觉输入编码器 ② 投影模块 ③ LLM（LVLM 式三件套）。[1]
📄 数据：PhysiCLeAR——物理/属性推理任务 + GelSight 标注触觉视频。[1]
📄 评测显示 Octopi 能用"中间物理属性预测"提升各类触觉相关任务表现（含场景推理、牛油果熟度预测）。⚠️ 具体准确率数字待核全文。[1]

来源¶

[1] arXiv 2405.02794 · 项目页 octopi-tactile-lvlm.github.io（摘要级核实 2026-06-29，未精读）