跳转至

OpenVLA:开源 7B VLA,小一个数量级却更强

📅 2024-06 · 🏛 Stanford/Berkeley/TRI 等 · 🏷 VLA·开源基座 📌 一句话省流:把强 VLA 开源了——7B 模型(Llama2 + DINOv2/SigLIP 视觉),在 97 万条 Open-X 数据上训;比 55B 的闭源 RT-2-X 还强、参数少 8 倍,而且单张 A100 用 LoRA 就能微调、4-bit 量化 7GB 显存能跑。 ≈ 打比方:VLA 界的"开源平替 + 消费级可调",谁都能拿来改。 🔬 详读:详读-OpenVLA 🎬 项目页 · 代码

🧰 对我们(可用性速判)

  • 对我们的用处做触觉×VLA 最现实的"拿来改"基座——卡片-ECoT卡片-TraceVLA 都是在它上面加东西验证的。两条决定工程路线的硬结论:视觉编码器必须微调(冻结掉点)LoRA 1.4% 参数单卡可上手
  • 真实性:✅ 全文精读 + CoRL 2024 + 全开源 + 社区广泛复用。
  • 训练/微调资源:LoRA 1×A100 10–15h;4-bit 量化 7.0GB 显存可推理。门槛低
  • 能借多少(开源):✅ 权重 + 代码 + 微调 notebook,生态大。
  • 可用性结论直接可用 / 最佳改造底座
  • 🔬 详读(全文):详读-OpenVLA

亮点(全文精读后定位)

  • 架构:DINOv2 + SigLIP 双视觉特征拼接 + projector + Llama2-7B;动作 256 token/维。
  • 小而强:BridgeData V2 71.3% 超 RT-2-X(55B) 65.5%,参数少 7.9×。
  • 落地配方:LoRA(1.4% 参数) + 4-bit 量化,消费级可调可跑。
  • 消融硬结论:融合 SigLIP+DINOv2 最好;224≈384(384 贵 3×);必须微调视觉编码器;要训到动作 token 准确率 >95%(~27 epoch)。

关键数字(每条带来源 [n])

  • [1] BridgeData V2 71.3% vs RT-2-X(55B) 65.5%、Octo ~40%;绝对 +16.5% 且参数少 7.9×。✅📄
  • [2] LoRA 仅训 1.4% 参数 = 全量效果;8×A100→1×A100(10–15h)。✅📄
  • [3] 4-bit 量化 16.8GB→7.0GB,成功率仍 71.9%。✅📄

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2406.09246,CoRL 2024(✅ 全文精读)。
  • 代码/权重:✅ 全开源(openvla/openvla)。
  • 证据等级:A → 权重:高

🧪 复现条件与成本(暂不亲做,只估)

  • 微调:1×A100 + LoRA,10–15h;推理 4-bit 7GB 显存。小团队可上手
  • 侧证判价值:顶会 ✅ / 全开源 ✅ / 社区广泛复用 ✅ / 小卡可跑 ✅。

💡 我的批注 / 判断(🤖,待人复核)

  • 我们接触觉的默认底座就选它:开源 + 单卡 LoRA + 4bit 可跑,是把"触觉接进 VLA"做实验的最低门槛承载体(与 卡片-VLA-Touch 外挂思路天然搭)。
  • 局限要记:单帧、无历史、无本体感、<90%——上真机精细/高频任务需补(看 卡片-OpenVLA-OFT 的改进)。

来源编号