OmniVTLA:让机器人"摸到的"和"看到的/被要求的"在语义上对齐¶
📅 2026-06(v3) · 🏛 上海交大(Li Song 组) × 帕西尼 PaXini · 🏷 视-触-语-动 / 语义对齐触觉 📌 一句话省流:以前把触觉塞进 VLA 的做法(Tactile-VLA/VTLA)都把触觉当"低级信号",没在语义上和视觉/语言对齐。OmniVTLA 主张:视觉编码器能强(CLIP/SigLIP)是因为对比学习做了语义对齐——触觉也该这么干。它给触觉设双编码器(预训练 ViT + 语义对齐的 SA-ViT),用跨模态对比学习把触觉信号(材质/粗糙度/硬度)接到视觉与语言语境里;并放出 ObjTac 三模态数据集(135K 样本/56 物体/10 类)训这个对齐编码器。真机 pick-place 夹爪 96.9%(+21.9%)、灵巧手 100%、peg 插入 83.3%(+33.3%),轨迹更平滑("空旷快走、接触才慢")。 ≈ 打比方:以前触觉是一串没人翻译的乱码;OmniVTLA 先教模型"这种触感=硬/糙/是瓶子",摸到啥能对上看到啥、听到的指令是啥。 🎬 演示/资源:项目页/ObjTac · 数据 帕西尼 OmniSharingDB
🧰 对我们(可用性速判)¶
- 对我们的用处:触觉×VLA 纵线里"触觉表征如何接进 VLA"的关键一票——主张"语义对齐的触觉编码器"是更好的接法(对上 卡片-AnyTouch/卡片-T3 的表征、卡片-FTP-1 的独立触觉专家)。且和我们追踪的帕西尼合作(卡片-帕西尼-PaXini/追踪-PaXini-帕西尼),ObjTac 用帕西尼 OmniSharingDB——国产触觉传感器 + VLA 的直接结合案例。
- 真实性(前期):中(偏上)。ObjTac 数据集开放 + 真机两任务 + 参数对齐(parameter-matched)对照实验 → 但单团队、任务少、代码开放度以项目页为准、预印本 → 证据 B+。
- 训练/微调资源:基座 Gemma 2.6B + SigLIP-400M,流匹配动作专家(π0 式);SA-ViT 用 ObjTac 对比训练当初始化。
- 能借多少(开源):✅ ObjTac 数据集(135K 三模态,大方);代码/权重以项目页为准。
- 可用性结论:思路(语义对齐触觉)+数据集直接可借;想给触觉编码器做 CLIP 式对齐时首选参照。
- 📖 详读(按需):暂未做(本卡覆盖全文要点)。
亮点到底在哪(读全文后定位)¶
- 亮点=触觉的"语义对齐"这一主张 + 双编码器实现:
- 双编码器路径(Fig.2):①一个预训练视觉 ViT 继承大规模图像的语义;②一个 SA-ViT 用跨模态对比学习把触觉与视觉/文本对齐。解决触觉与视觉、以及不同触觉传感器间的异构性。[1]
- 为什么:vanilla VLA 的图像编码器(CLIP/SigLIP)靠对比学习获得语义对齐;而已有 VTLA 把触觉当低级信号、没对齐——OmniVTLA 补上这一环(Table 1:唯一 V+T+L→A 且 semantic-aligned ✓)。[1]
- ObjTac 数据集:文/视/触三模态,56 物体/10 类/135K 样本;用于训 SA-ViT。托管帕西尼 OmniSharingDB。[1]
- 参数对齐消融:在同参数量下比较不同触觉编码器架构,论证双编码器设计是"精心设计的"而非靠加参数。[1]
🧬 与其他工作的关系¶
- SJTU(Cewu Lu 生态/Li Song) × 帕西尼:数据来自帕西尼 OmniSharingDB(也是 卡片-FTP-1 致谢里的人类触觉数据源之一)。见 实验室与团队名录 的上海交大/帕西尼线。
- 区别于 卡片-Tactile-VLA/VTLA:那些不做触觉的语义对齐(Table 1 标 ✗);OmniVTLA 的卖点就是对齐。承接 卡片-AnyTouch/Octopi(触觉语义/属性理解)的对齐思想,并把它接进策略(前者多停在理解,不进 policy)。
- 与 卡片-FTP-1 对照:都在解"触觉怎么进 VLA/策略"。FTP-1=跨传感器统一 token + 独立触觉专家、通才策略;OmniVTLA=语义对齐的触觉编码器 + VTLA。两者是"表征对齐" vs "架构统一"的不同侧重,可互补。
关键数字(全文核实)¶
- ObjTac:135K 三模态样本,56 物体,10 类。[1]
- 真机:pick-place 夹爪 96.9%(+21.9%)、灵巧手 100%(+6.2%);peg 插入 83.3%(+33.3%)。[1]
- 定性:完成时间更短、轨迹更平滑("clear 时快走,仅接触逼近时减速")。[1]
- 基座 Gemma 2.6B + SigLIP-400M。[1]
🔎 证据与可信度¶
- 论文:arXiv 2508.08706(SJTU × 帕西尼,v3 2026-06)✅ 全文已读。
- 数据:ObjTac 开放(帕西尼 OmniSharingDB);代码/权重以项目页为准。
- 证据等级:B+(开源数据+真机+参数对齐消融,但单团队/任务少/预印本/代码待确认)→ 权重:中(偏上)。
🧪 复现/采用成本¶
- 用数据/思路:ObjTac 可直接取来训语义对齐触觉编码器;架构基于 Gemma+SigLIP+流匹配动作专家。
- 接自家传感器:语义对齐需要三模态(文/视/触)配对数据;换传感器要重采或迁移(帕西尼传感器最省)。
- 侧证判价值:开源数据(高)、真机+参数对齐对照(中)、单团队/任务少(降权)。
🧱 局限¶
- 真机仅 2 类任务(pick-place / peg 插入),单团队;泛化证据有限。
- 语义对齐依赖三模态配对数据(ObjTac 规模 135K、56 物体,类别有限)。
- 代码/权重开放度以项目页为准;偏视觉式触觉(帕西尼传感器)。
💡 我的批注 / 判断¶
- 核心可复用观点:"触觉编码器也要做 CLIP 式语义对齐"——这是对"触觉怎么进 VLA"的一个明确主张,和 卡片-FTP-1(统一 token+独立专家)、卡片-TA-VLA(力矩接解码器/单token)、卡片-Tactile-VLA(力入动作空间)、卡片-HapticVLA/卡片-FD-VLA(蒸馏免传感器)一起,构成"触觉/力信号接 VLA 的方法谱系"。我们做融合时可据任务在这几种接法里选型。
- 产业价值:帕西尼(国产触觉)+ SJTU 的组合,且开放 ObjTac——是"国产触觉传感器往 VLA 生态里推"的信号,值得连着 追踪-PaXini-帕西尼 一起盯(数据/传感器规格/是否更多 VTLA 合作)。
- ⚠️ 单团队小任务预印本,数字引用注明口径。
来源编号¶
- [1] arXiv 2508.08706 · 项目/ObjTac · 本地
papers/OmniVTLA-2508.08706.pdf(全文精读 2026-07-01)