跳转至

机器人知识库

Octopi：用大触觉-语言模型做物体属性推理（含 PhysiCLeAR 数据集）

Octopi：让 LLM"摸一摸"就能推理物体物理属性¶

📅 2024-05 · 🏛 NUS（+ UW）· 🏷 触觉-语言模型·LVLM 📌 一句话省流：给大语言模型接上触觉(GelSight)，让它摸一下就说出软硬/粗糙/凹凸，并据此做常识推理(比如判断牛油果熟没熟)。关键发现：先让模型显式说出"物理属性"，再推理，能涨 20–40%。 ≈ 打比方：像给 LLM 装了"手"，而且教它"先描述手感、再下结论"。 🔬 详读：详读-Octopi 🎬 演示：https://octopi-tactile-lvlm.github.io/

🧰 对我们（可用性速判）¶

对我们的用处："触觉→语言推理"那条腿的范例，与卡片-Tactile-VLA 的"触觉 grounding + 常识"呼应。三件套 encoder→projection→LLM 可直接抄；更值得抄的是"先预测中间属性再推理"(触觉版思维链, 同卡片-ECoT)。
真实性：✅ 全文精读 + CoRL 2024 + 代码与数据集开源。
训练/微调资源：CLIP ViT-L/14 编码器微调 + Vicuna 7b/13b + LoRA(轻量微调)；三段式，中等。
能借多少(开源)：✅ 代码 + PhysiCLeAR 数据集(github.com/clear-nus/octopi)，可直接用于触觉-语言任务。
可用性结论：架构可抄 / 数据集可直接用。
🔬 详读（全文）：详读-Octopi

亮点（全文精读后定位）¶

三件套：微调 CLIP ViT-L/14(视觉 prompt tuning) + 2 层投影 + Vicuna(7b/13b)。
PhysiCLeAR 数据集：408 段触觉视频 / 74 物体 / 3 属性(硬度·粗糙·凹凸)，标注一致性高(ICC3k 0.894–0.979)。
中间属性预测=触觉思维链：不训"属性描述(OPD)"，理解/推理任务掉 20–40%——最有迁移价值的发现。
真机落地：牛油果熟度判断 63%。

关键数字（每条带来源 [n]）¶

[1] Octopi-13b：属性比较 PC 55.06% / 最高级 PSS 84.00% / 匹配 POM 60.43% / 场景推理 PSR 67.39%。✅📄
[2] 属性预测合计 55.26%(硬度 73.68/粗糙 78.95/凹凸 78.95)；牛油果熟度 63%。✅📄
[3] 端到端 LoRA：13b 31.58%→55.26%；去掉中间属性描述(OPD) 理解/推理掉 20–40%。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2405.02794，CoRL 2024（✅ 全文精读）。
代码/数据：✅ 代码 + PhysiCLeAR 开源(clear-nus/octopi)。
证据等级：A → 权重：中(偏上)。

🧪 复现条件与成本（暂不亲做，只估）¶

微调：CLIP 编码器 + Vicuna LoRA(三段式)，中等算力。
数据：PhysiCLeAR 已开放，可直接用。
侧证判价值：顶会 ✅ / 代码+数据开源 ✅ / 真机验证 ✅。

💡 我的批注 / 判断（🤖，待人复核）¶

最值得复用的一点："先显式预测中间物理属性再推理"涨 20–40%——这就是触觉版 chain-of-thought，和卡片-ECoT"先推理再动作"同源，应在我们触觉×VLA 里试。
⚠️ 局限：GelSight 域差、只 3 属性、只 2 种探索动作(按压/旋转)——别把它当"全能触觉理解"。
PhysiCLeAR 是现成"触觉视频+属性标注"数据集，做触觉-语言任务可直接拿。

来源编号¶

[1][2][3] arXiv 2405.02794 全文（✅，见详读-Octopi）。