跳转至

机器人知识库

VLAS —— 第一个把"听语音"直接长进 VLA 的模型（端到端语音指令 + 声纹个性化）

VLAS：别的 VLA 要先把语音转文字，它直接"用耳朵听"¶

📅 2025-02 · 🏛 待核 · 🏷 VLA·语音模态 📌 一句话省流：第一个把语音识别直接长进 VLA的模型——不外挂 ASR，机器人直接听懂口令并行动；还能用声纹检索(voice-RAG)记住"某个人的偏好"做定制任务。CALVIN 上和传统 VLA 相当，定制任务上明显更强。 ≈ 打比方：别的 VLA 像"先听写再执行"，VLAS 是"边听边干"，还能认出是谁在说话。 🎬 演示：见论文 ⚠️ 摘要级：仅读 arXiv 摘要，🧬关系为推断(🔶)、作者单位待核，待补全文精读。

🧰 对我们（可用性速判）¶

对我们的用处：思路借鉴——它示范了"把一个新模态(语音)端到端接进 VLA"的完整配方（对齐 + 三阶段微调 + RAG 个性化）。这恰好和我们"把触觉接进 VLA"是同构问题的不同模态，配方可类比。
真实性(前期)：ICLR 2025 录用，方向新；🔶 数字/单位未核。
训练/微调资源：三阶段语音指令微调 + 自建 SQA/CSI 数据集（中等偏重）。
能借多少(开源)：代码开源状态待核。
可用性结论：思路借鉴（模态接入配方），非直接可用。
📖 详读（按需）：暂无（摘要级）。

亮点（摘要级定位）¶

端到端语音：靠内部 speech-text 对齐，省掉外挂语音识别，避免级联误差。
三阶段语音指令微调：用自建 SQA / CSI 多模态数据集训。
声纹 RAG：voice-RAG 检索"个人专属知识"，做需要个性化的任务。
结果：CALVIN 上（文本或语音指令）与传统 VLA 相当；定制任务上凭语音里的附加信息明显胜出。

🧬 与其他工作的关系（🔶 推断，待全文核）¶

同构对照：和卡片-VLA-Touch、卡片-Tactile-VLA 是"给 VLA 加一种新模态"的同类——它加语音，我们关心触觉，配方可互鉴。
评测：用 CALVIN（库内有基准-CALVIN）。

关键数字（每条带来源 [n]）¶

[1] CALVIN 上（文本/语音指令）性能与传统 VLA 相当；定制任务上更强（✅ arXiv 摘要，定性；具体数字 🟡 待全文）。

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2502.13508，ICLR 2025（已核摘要；未读全文）。
代码/单位：均待核。
证据等级：C（摘要级）→ 权重：中；核心主张 ✅（定性），数字 🟡，关系/单位 🔶。

🧪 复现条件与成本（暂不亲做，只估）¶

数据：需 SQA/CSI 类语音多模态数据（部分自建）。
时间估计：若代码+数据开放，复现约 3–4 周。🔶

💡 我的批注 / 判断（🤖，待人复核）¶

我们最该"偷"的不是语音本身，而是它把新模态端到端塞进 VLA 的工程配方（对齐→分阶段微调→RAG）。把"语音"换成"触觉"，几乎就是我们要做的事——值得在升全文时逐步拆其训练流程。
⚠️ 作者单位、具体数字均待全文坐实。

来源编号¶

[1] arXiv 2502.13508 摘要（✅ 定性）。
🧬 关系/单位：🤖 推断 / 待核（🔶）。