跳转至

机器人知识库

OpenVLA —— 开源 7B VLA（Open-X 训练，可下来就用）

OpenVLA：开源 7B VLA，小一个数量级却更强¶

📅 2024-06 · 🏛 Stanford/Berkeley/TRI 等 · 🏷 VLA·开源基座 📌 一句话省流：把强 VLA 开源了——7B 模型(Llama2 + DINOv2/SigLIP 视觉)，在 97 万条 Open-X 数据上训；比 55B 的闭源 RT-2-X 还强、参数少 8 倍，而且单张 A100 用 LoRA 就能微调、4-bit 量化 7GB 显存能跑。 ≈ 打比方：VLA 界的"开源平替 + 消费级可调"，谁都能拿来改。 🔬 详读：详读-OpenVLA 🎬 项目页 · 代码

🧰 对我们（可用性速判）¶

对我们的用处：做触觉×VLA 最现实的"拿来改"基座——卡片-ECoT、卡片-TraceVLA 都是在它上面加东西验证的。两条决定工程路线的硬结论：视觉编码器必须微调(冻结掉点)、LoRA 1.4% 参数单卡可上手。
真实性：✅ 全文精读 + CoRL 2024 + 全开源 + 社区广泛复用。
训练/微调资源：LoRA 1×A100 10–15h；4-bit 量化 7.0GB 显存可推理。门槛低。
能借多少(开源)：✅ 权重 + 代码 + 微调 notebook，生态大。
可用性结论：直接可用 / 最佳改造底座。
🔬 详读（全文）：详读-OpenVLA

亮点（全文精读后定位）¶

架构：DINOv2 + SigLIP 双视觉特征拼接 + projector + Llama2-7B；动作 256 token/维。
小而强：BridgeData V2 71.3% 超 RT-2-X(55B) 65.5%，参数少 7.9×。
落地配方：LoRA(1.4% 参数) + 4-bit 量化，消费级可调可跑。
消融硬结论：融合 SigLIP+DINOv2 最好；224≈384(384 贵 3×)；必须微调视觉编码器；要训到动作 token 准确率 >95%(~27 epoch)。

关键数字（每条带来源 [n]）¶

[1] BridgeData V2 71.3% vs RT-2-X(55B) 65.5%、Octo ~40%；绝对 +16.5% 且参数少 7.9×。✅📄
[2] LoRA 仅训 1.4% 参数 = 全量效果；8×A100→1×A100(10–15h)。✅📄
[3] 4-bit 量化 16.8GB→7.0GB，成功率仍 71.9%。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2406.09246，CoRL 2024（✅ 全文精读）。
代码/权重：✅ 全开源(openvla/openvla)。
证据等级：A → 权重：高。

🧪 复现条件与成本（暂不亲做，只估）¶

微调：1×A100 + LoRA，10–15h；推理 4-bit 7GB 显存。小团队可上手。
侧证判价值：顶会 ✅ / 全开源 ✅ / 社区广泛复用 ✅ / 小卡可跑 ✅。

💡 我的批注 / 判断（🤖，待人复核）¶

我们接触觉的默认底座就选它：开源 + 单卡 LoRA + 4bit 可跑，是把"触觉接进 VLA"做实验的最低门槛承载体(与卡片-VLA-Touch 外挂思路天然搭)。
局限要记：单帧、无历史、无本体感、<90%——上真机精细/高频任务需补(看卡片-OpenVLA-OFT 的改进)。

来源编号¶

[1][2][3] arXiv 2406.09246 全文（✅，见详读-OpenVLA）。