type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-OpenVLA arxiv: "2406.09246" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30
详读 · OpenVLA:开源 7B VLA,小一个数量级却更强(CoRL 2024)¶
一、问题与核心主张¶
- 问题:强 VLA(如 RT-2)都闭源,且没人教"怎么在消费级硬件上高效微调",难普及。
- 主张:开源一个 7B VLA——在 97 万条 Open-X 轨迹上微调预训练 VLM,并给出 LoRA 微调 + 量化 的落地配方。
二、方法 / 架构¶
- 三件套:①视觉编码器=DINOv2 + SigLIP 双特征拼接;②projector 映射到语言空间;③Llama2-7B LLM。
- 训练:97 万 Open-X 轨迹;动作每维 256 token;下一 token 预测;27 epoch(远多于 LLM 的 1-2),lr 2e-5,224×224。
三、关键结果¶
| 指标 | OpenVLA(7B) | RT-2-X(55B) | Octo(93M) |
|---|---|---|---|
| BridgeData V2 成功率 | 71.3% | 65.5% | ~40% |
| - 比 RT-2-X 绝对 +16.5%,参数少 7.9×;Google Robot 上也持平或更优。 |
四、高效微调 / 量化¶
- LoRA:只训 1.4% 参数即达全量微调效果;算力从 8×A100(5–15h) 降到 1×A100(10–15h)。
- 4-bit 量化:显存 16.8GB→7.0GB,成功率仍 71.9%(持平全精度)。
五、消融¶
- 融合 SigLIP+DINOv2 优于单编码器/LLaVA/IDEFICS。
- 分辨率 224 vs 384 无差(384 训练贵 3×)。
- 微调视觉编码器是必须的(冻结会掉点,和常规 VLM 习惯相反)。
- 要训到动作 token 准确率 >95%(约 27 epoch)真机才持续涨。
六、局限(作者自陈)¶
- 仅单帧观测、无历史/本体感;
- 吞吐不足以高频控制(如 50Hz ALOHA);
- 成功率通常 <90%,可靠性有限;
- 最优 VLM 规模/共训收益等仍开放。
七、开源 / 出处¶
- CoRL 2024;全开源(权重+代码+微调 notebook,openvla.github.io / github.com/openvla/openvla);Stanford/Berkeley/TRI/GDM/PI/MIT。
八、对我们(精读后判断,🤖)¶
- 我们最该深用的 VLA 底座:开源 + LoRA 单卡可调 + 4bit 可跑——做触觉×VLA 时,它是最现实的"拿来改"的基座(卡片-ECoT、卡片-TraceVLA 都是在它上面加东西验证的)。
- 直接可用结论:冻结不行、必须微调视觉编码器;LoRA 1.4% 参数单卡可上手——这两条决定了我们接触觉时的工程路线。
- 局限要记:单帧无历史、无本体感、<90% —— 要上真机精细/高频任务还需补(对照 卡片-OpenVLA-OFT 的改进)。