跳转至

VLAS:别的 VLA 要先把语音转文字,它直接"用耳朵听"

📅 2025-02 · 🏛 待核 · 🏷 VLA·语音模态 📌 一句话省流:第一个把语音识别直接长进 VLA的模型——不外挂 ASR,机器人直接听懂口令并行动;还能用声纹检索(voice-RAG)记住"某个人的偏好"做定制任务。CALVIN 上和传统 VLA 相当,定制任务上明显更强。 ≈ 打比方:别的 VLA 像"先听写再执行",VLAS 是"边听边干",还能认出是谁在说话。 🎬 演示:见论文 ⚠️ 摘要级:仅读 arXiv 摘要,🧬关系为推断(🔶)、作者单位待核,待补全文精读

🧰 对我们(可用性速判)

  • 对我们的用处思路借鉴——它示范了"把一个新模态(语音)端到端接进 VLA"的完整配方(对齐 + 三阶段微调 + RAG 个性化)。这恰好和我们"把触觉接进 VLA"是同构问题的不同模态,配方可类比。
  • 真实性(前期):ICLR 2025 录用,方向新;🔶 数字/单位未核。
  • 训练/微调资源:三阶段语音指令微调 + 自建 SQA/CSI 数据集(中等偏重)。
  • 能借多少(开源):代码开源状态待核
  • 可用性结论思路借鉴(模态接入配方),非直接可用。
  • 📖 详读(按需):暂无(摘要级)。

亮点(摘要级定位)

  • 端到端语音:靠内部 speech-text 对齐,省掉外挂语音识别,避免级联误差。
  • 三阶段语音指令微调:用自建 SQA / CSI 多模态数据集训。
  • 声纹 RAG:voice-RAG 检索"个人专属知识",做需要个性化的任务。
  • 结果:CALVIN 上(文本或语音指令)与传统 VLA 相当;定制任务上凭语音里的附加信息明显胜出

🧬 与其他工作的关系(🔶 推断,待全文核)

关键数字(每条带来源 [n])

  • [1] CALVIN 上(文本/语音指令)性能与传统 VLA 相当;定制任务上更强(✅ arXiv 摘要,定性;具体数字 🟡 待全文)。

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2502.13508,ICLR 2025(已核摘要;未读全文)。
  • 代码/单位:均待核
  • 证据等级:C(摘要级)→ 权重:中;核心主张 ✅(定性),数字 🟡,关系/单位 🔶。

🧪 复现条件与成本(暂不亲做,只估)

  • 数据:需 SQA/CSI 类语音多模态数据(部分自建)。
  • 时间估计:若代码+数据开放,复现约 3–4 周。🔶

💡 我的批注 / 判断(🤖,待人复核)

  • 我们最该"偷"的不是语音本身,而是它把新模态端到端塞进 VLA 的工程配方(对齐→分阶段微调→RAG)。把"语音"换成"触觉",几乎就是我们要做的事——值得在升全文时逐步拆其训练流程。
  • ⚠️ 作者单位、具体数字均待全文坐实。

来源编号

  • [1] arXiv 2502.13508 摘要(✅ 定性)。
  • 🧬 关系/单位:🤖 推断 / 待核(🔶)。