type: 详读（中文全文摘要） domain: 大脑·模型对应卡片: 卡片-OpenVLA arxiv: "2406.09246" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · OpenVLA：开源 7B VLA，小一个数量级却更强（CoRL 2024）¶

一、问题与核心主张¶

三件套：①视觉编码器=DINOv2 + SigLIP 双特征拼接；②projector 映射到语言空间；③Llama2-7B LLM。
训练：97 万 Open-X 轨迹；动作每维 256 token；下一 token 预测；27 epoch(远多于 LLM 的 1-2)，lr 2e-5，224×224。

指标	OpenVLA(7B)	RT-2-X(55B)	Octo(93M)
BridgeData V2 成功率	71.3%	65.5%	~40%
- 比 RT-2-X 绝对 +16.5%，参数少 7.9×；Google Robot 上也持平或更优。

CoRL 2024；全开源(权重+代码+微调 notebook，openvla.github.io / github.com/openvla/openvla)；Stanford/Berkeley/TRI/GDM/PI/MIT。

我们最该深用的 VLA 底座：开源 + LoRA 单卡可调 + 4bit 可跑——做触觉×VLA 时，它是最现实的"拿来改"的基座（卡片-ECoT、卡片-TraceVLA 都是在它上面加东西验证的）。
直接可用结论：冻结不行、必须微调视觉编码器；LoRA 1.4% 参数单卡可上手——这两条决定了我们接触觉时的工程路线。
局限要记：单帧无历史、无本体感、<90% —— 要上真机精细/高频任务还需补(对照卡片-OpenVLA-OFT 的改进)。