VLAS:别的 VLA 要先把语音转文字,它直接"用耳朵听"¶
📅 2025-02 · 🏛 待核 · 🏷 VLA·语音模态 📌 一句话省流:第一个把语音识别直接长进 VLA的模型——不外挂 ASR,机器人直接听懂口令并行动;还能用声纹检索(voice-RAG)记住"某个人的偏好"做定制任务。CALVIN 上和传统 VLA 相当,定制任务上明显更强。 ≈ 打比方:别的 VLA 像"先听写再执行",VLAS 是"边听边干",还能认出是谁在说话。 🎬 演示:见论文 ⚠️ 摘要级:仅读 arXiv 摘要,🧬关系为推断(🔶)、作者单位待核,待补全文精读。
🧰 对我们(可用性速判)¶
- 对我们的用处:思路借鉴——它示范了"把一个新模态(语音)端到端接进 VLA"的完整配方(对齐 + 三阶段微调 + RAG 个性化)。这恰好和我们"把触觉接进 VLA"是同构问题的不同模态,配方可类比。
- 真实性(前期):ICLR 2025 录用,方向新;🔶 数字/单位未核。
- 训练/微调资源:三阶段语音指令微调 + 自建 SQA/CSI 数据集(中等偏重)。
- 能借多少(开源):代码开源状态待核。
- 可用性结论:思路借鉴(模态接入配方),非直接可用。
- 📖 详读(按需):暂无(摘要级)。
亮点(摘要级定位)¶
- 端到端语音:靠内部 speech-text 对齐,省掉外挂语音识别,避免级联误差。
- 三阶段语音指令微调:用自建 SQA / CSI 多模态数据集训。
- 声纹 RAG:voice-RAG 检索"个人专属知识",做需要个性化的任务。
- 结果:CALVIN 上(文本或语音指令)与传统 VLA 相当;定制任务上凭语音里的附加信息明显胜出。
🧬 与其他工作的关系(🔶 推断,待全文核)¶
- 同构对照:和 卡片-VLA-Touch、卡片-Tactile-VLA 是"给 VLA 加一种新模态"的同类——它加语音,我们关心触觉,配方可互鉴。
- 评测:用 CALVIN(库内有 基准-CALVIN)。
关键数字(每条带来源 [n])¶
- [1] CALVIN 上(文本/语音指令)性能与传统 VLA 相当;定制任务上更强(✅ arXiv 摘要,定性;具体数字 🟡 待全文)。
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2502.13508,ICLR 2025(已核摘要;未读全文)。
- 代码/单位:均待核。
- 证据等级:C(摘要级)→ 权重:中;核心主张 ✅(定性),数字 🟡,关系/单位 🔶。
🧪 复现条件与成本(暂不亲做,只估)¶
- 数据:需 SQA/CSI 类语音多模态数据(部分自建)。
- 时间估计:若代码+数据开放,复现约 3–4 周。🔶
💡 我的批注 / 判断(🤖,待人复核)¶
- 我们最该"偷"的不是语音本身,而是它把新模态端到端塞进 VLA 的工程配方(对齐→分阶段微调→RAG)。把"语音"换成"触觉",几乎就是我们要做的事——值得在升全文时逐步拆其训练流程。
- ⚠️ 作者单位、具体数字均待全文坐实。
来源编号¶
- [1] arXiv 2502.13508 摘要(✅ 定性)。
- 🧬 关系/单位:🤖 推断 / 待核(🔶)。