OpenVLA:开源 7B VLA,小一个数量级却更强¶
📅 2024-06 · 🏛 Stanford/Berkeley/TRI 等 · 🏷 VLA·开源基座 📌 一句话省流:把强 VLA 开源了——7B 模型(Llama2 + DINOv2/SigLIP 视觉),在 97 万条 Open-X 数据上训;比 55B 的闭源 RT-2-X 还强、参数少 8 倍,而且单张 A100 用 LoRA 就能微调、4-bit 量化 7GB 显存能跑。 ≈ 打比方:VLA 界的"开源平替 + 消费级可调",谁都能拿来改。 🔬 详读:详读-OpenVLA 🎬 项目页 · 代码
🧰 对我们(可用性速判)¶
- 对我们的用处:做触觉×VLA 最现实的"拿来改"基座——卡片-ECoT、卡片-TraceVLA 都是在它上面加东西验证的。两条决定工程路线的硬结论:视觉编码器必须微调(冻结掉点)、LoRA 1.4% 参数单卡可上手。
- 真实性:✅ 全文精读 + CoRL 2024 + 全开源 + 社区广泛复用。
- 训练/微调资源:LoRA 1×A100 10–15h;4-bit 量化 7.0GB 显存可推理。门槛低。
- 能借多少(开源):✅ 权重 + 代码 + 微调 notebook,生态大。
- 可用性结论:直接可用 / 最佳改造底座。
- 🔬 详读(全文):详读-OpenVLA
亮点(全文精读后定位)¶
- 架构:DINOv2 + SigLIP 双视觉特征拼接 + projector + Llama2-7B;动作 256 token/维。
- 小而强:BridgeData V2 71.3% 超 RT-2-X(55B) 65.5%,参数少 7.9×。
- 落地配方:LoRA(1.4% 参数) + 4-bit 量化,消费级可调可跑。
- 消融硬结论:融合 SigLIP+DINOv2 最好;224≈384(384 贵 3×);必须微调视觉编码器;要训到动作 token 准确率 >95%(~27 epoch)。
关键数字(每条带来源 [n])¶
- [1] BridgeData V2 71.3% vs RT-2-X(55B) 65.5%、Octo ~40%;绝对 +16.5% 且参数少 7.9×。✅📄
- [2] LoRA 仅训 1.4% 参数 = 全量效果;8×A100→1×A100(10–15h)。✅📄
- [3] 4-bit 量化 16.8GB→7.0GB,成功率仍 71.9%。✅📄
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2406.09246,CoRL 2024(✅ 全文精读)。
- 代码/权重:✅ 全开源(openvla/openvla)。
- 证据等级:A → 权重:高。
🧪 复现条件与成本(暂不亲做,只估)¶
- 微调:1×A100 + LoRA,10–15h;推理 4-bit 7GB 显存。小团队可上手。
- 侧证判价值:顶会 ✅ / 全开源 ✅ / 社区广泛复用 ✅ / 小卡可跑 ✅。
💡 我的批注 / 判断(🤖,待人复核)¶
- 我们接触觉的默认底座就选它:开源 + 单卡 LoRA + 4bit 可跑,是把"触觉接进 VLA"做实验的最低门槛承载体(与 卡片-VLA-Touch 外挂思路天然搭)。
- 局限要记:单帧、无历史、无本体感、<90%——上真机精细/高频任务需补(看 卡片-OpenVLA-OFT 的改进)。
来源编号¶
- [1][2][3] arXiv 2406.09246 全文(✅,见 详读-OpenVLA)。