跳转至

type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-OpenVLA arxiv: "2406.09246" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30


详读 · OpenVLA:开源 7B VLA,小一个数量级却更强(CoRL 2024)

一、问题与核心主张

  • 问题:强 VLA(如 RT-2)都闭源,且没人教"怎么在消费级硬件上高效微调",难普及。
  • 主张:开源一个 7B VLA——在 97 万条 Open-X 轨迹上微调预训练 VLM,并给出 LoRA 微调 + 量化 的落地配方。

二、方法 / 架构

  • 三件套:①视觉编码器=DINOv2 + SigLIP 双特征拼接;②projector 映射到语言空间;③Llama2-7B LLM。
  • 训练:97 万 Open-X 轨迹;动作每维 256 token;下一 token 预测;27 epoch(远多于 LLM 的 1-2),lr 2e-5,224×224。

三、关键结果

指标 OpenVLA(7B) RT-2-X(55B) Octo(93M)
BridgeData V2 成功率 71.3% 65.5% ~40%
- 比 RT-2-X 绝对 +16.5%,参数少 7.9×;Google Robot 上也持平或更优。

四、高效微调 / 量化

  • LoRA:只训 1.4% 参数即达全量微调效果;算力从 8×A100(5–15h) 降到 1×A100(10–15h)
  • 4-bit 量化:显存 16.8GB→7.0GB,成功率仍 71.9%(持平全精度)。

五、消融

  • 融合 SigLIP+DINOv2 优于单编码器/LLaVA/IDEFICS。
  • 分辨率 224 vs 384 无差(384 训练贵 3×)。
  • 微调视觉编码器是必须的(冻结会掉点,和常规 VLM 习惯相反)。
  • 要训到动作 token 准确率 >95%(约 27 epoch)真机才持续涨。

六、局限(作者自陈)

  • 单帧观测、无历史/本体感;
  • 吞吐不足以高频控制(如 50Hz ALOHA);
  • 成功率通常 <90%,可靠性有限;
  • 最优 VLM 规模/共训收益等仍开放。

七、开源 / 出处

  • CoRL 2024;全开源(权重+代码+微调 notebook,openvla.github.io / github.com/openvla/openvla);Stanford/Berkeley/TRI/GDM/PI/MIT。

八、对我们(精读后判断,🤖)

  • 我们最该深用的 VLA 底座:开源 + LoRA 单卡可调 + 4bit 可跑——做触觉×VLA 时,它是最现实的"拿来改"的基座卡片-ECoT卡片-TraceVLA 都是在它上面加东西验证的)。
  • 直接可用结论:冻结不行、必须微调视觉编码器LoRA 1.4% 参数单卡可上手——这两条决定了我们接触觉时的工程路线。
  • 局限要记:单帧无历史、无本体感、<90% —— 要上真机精细/高频任务还需补(对照 卡片-OpenVLA-OFT 的改进)。