OmniVTLA：让机器人"摸到的"和"看到的/被要求的"在语义上对齐¶

📅 2026-06(v3) · 🏛 上海交大(Li Song 组) × 帕西尼 PaXini · 🏷 视-触-语-动 / 语义对齐触觉 📌 一句话省流：以前把触觉塞进 VLA 的做法(Tactile-VLA/VTLA)都把触觉当"低级信号"，没在语义上和视觉/语言对齐。OmniVTLA 主张:视觉编码器能强(CLIP/SigLIP)是因为对比学习做了语义对齐——触觉也该这么干。它给触觉设双编码器(预训练 ViT + 语义对齐的 SA-ViT)，用跨模态对比学习把触觉信号(材质/粗糙度/硬度)接到视觉与语言语境里;并放出 ObjTac 三模态数据集(135K 样本/56 物体/10 类)训这个对齐编码器。真机 pick-place 夹爪 96.9%(+21.9%)、灵巧手 100%、peg 插入 83.3%(+33.3%)，轨迹更平滑("空旷快走、接触才慢")。 ≈ 打比方：以前触觉是一串没人翻译的乱码;OmniVTLA 先教模型"这种触感=硬/糙/是瓶子"，摸到啥能对上看到啥、听到的指令是啥。 🎬 演示/资源：项目页/ObjTac · 数据帕西尼 OmniSharingDB

🧰 对我们（可用性速判）¶

对我们的用处：触觉×VLA 纵线里"触觉表征如何接进 VLA"的关键一票——主张"语义对齐的触觉编码器"是更好的接法(对上卡片-AnyTouch/卡片-T3 的表征、卡片-FTP-1 的独立触觉专家)。且和我们追踪的帕西尼合作(卡片-帕西尼-PaXini/追踪-PaXini-帕西尼)，ObjTac 用帕西尼 OmniSharingDB——国产触觉传感器 + VLA 的直接结合案例。
真实性(前期)：中(偏上)。ObjTac 数据集开放 + 真机两任务 + 参数对齐(parameter-matched)对照实验 → 但单团队、任务少、代码开放度以项目页为准、预印本 → 证据 B+。
训练/微调资源：基座 Gemma 2.6B + SigLIP-400M,流匹配动作专家(π0 式);SA-ViT 用 ObjTac 对比训练当初始化。
能借多少(开源)：✅ ObjTac 数据集(135K 三模态,大方);代码/权重以项目页为准。
可用性结论：思路(语义对齐触觉)+数据集直接可借;想给触觉编码器做 CLIP 式对齐时首选参照。
📖 详读（按需）：暂未做（本卡覆盖全文要点）。

亮点到底在哪（读全文后定位）¶

亮点=触觉的"语义对齐"这一主张 + 双编码器实现：
双编码器路径(Fig.2)：①一个预训练视觉 ViT 继承大规模图像的语义;②一个 SA-ViT 用跨模态对比学习把触觉与视觉/文本对齐。解决触觉与视觉、以及不同触觉传感器间的异构性。[1]
为什么：vanilla VLA 的图像编码器(CLIP/SigLIP)靠对比学习获得语义对齐;而已有 VTLA 把触觉当低级信号、没对齐——OmniVTLA 补上这一环(Table 1:唯一 V+T+L→A 且 semantic-aligned ✓)。[1]
ObjTac 数据集：文/视/触三模态,56 物体/10 类/135K 样本;用于训 SA-ViT。托管帕西尼 OmniSharingDB。[1]
参数对齐消融：在同参数量下比较不同触觉编码器架构，论证双编码器设计是"精心设计的"而非靠加参数。[1]

🧬 与其他工作的关系¶

SJTU(Cewu Lu 生态/Li Song) × 帕西尼：数据来自帕西尼 OmniSharingDB(也是卡片-FTP-1 致谢里的人类触觉数据源之一)。见实验室与团队名录的上海交大/帕西尼线。
区别于 卡片-Tactile-VLA/VTLA：那些不做触觉的语义对齐(Table 1 标 ✗);OmniVTLA 的卖点就是对齐。承接卡片-AnyTouch/Octopi(触觉语义/属性理解)的对齐思想，并把它接进策略(前者多停在理解，不进 policy)。
与卡片-FTP-1 对照：都在解"触觉怎么进 VLA/策略"。FTP-1=跨传感器统一 token + 独立触觉专家、通才策略;OmniVTLA=语义对齐的触觉编码器 + VTLA。两者是"表征对齐" vs "架构统一"的不同侧重,可互补。

关键数字（全文核实）¶

ObjTac：135K 三模态样本,56 物体,10 类。[1]
真机：pick-place 夹爪 96.9%(+21.9%)、灵巧手 100%(+6.2%);peg 插入 83.3%(+33.3%)。[1]
定性：完成时间更短、轨迹更平滑("clear 时快走，仅接触逼近时减速")。[1]
基座 Gemma 2.6B + SigLIP-400M。[1]

🔎 证据与可信度¶

论文：arXiv 2508.08706（SJTU × 帕西尼，v3 2026-06）✅ 全文已读。
数据：ObjTac 开放(帕西尼 OmniSharingDB);代码/权重以项目页为准。
证据等级：B+（开源数据+真机+参数对齐消融，但单团队/任务少/预印本/代码待确认）→ 权重：中(偏上)。

🧪 复现/采用成本¶

用数据/思路：ObjTac 可直接取来训语义对齐触觉编码器;架构基于 Gemma+SigLIP+流匹配动作专家。
接自家传感器：语义对齐需要三模态(文/视/触)配对数据;换传感器要重采或迁移(帕西尼传感器最省)。
侧证判价值：开源数据(高)、真机+参数对齐对照(中)、单团队/任务少(降权)。

🧱 局限¶

真机仅 2 类任务(pick-place / peg 插入),单团队;泛化证据有限。
语义对齐依赖三模态配对数据(ObjTac 规模 135K、56 物体,类别有限)。
代码/权重开放度以项目页为准;偏视觉式触觉(帕西尼传感器)。

💡 我的批注 / 判断¶

核心可复用观点："触觉编码器也要做 CLIP 式语义对齐"——这是对"触觉怎么进 VLA"的一个明确主张,和卡片-FTP-1(统一 token+独立专家)、卡片-TA-VLA(力矩接解码器/单token)、卡片-Tactile-VLA(力入动作空间)、卡片-HapticVLA/卡片-FD-VLA(蒸馏免传感器)一起,构成"触觉/力信号接 VLA 的方法谱系"。我们做融合时可据任务在这几种接法里选型。
产业价值：帕西尼(国产触觉)+ SJTU 的组合，且开放 ObjTac——是"国产触觉传感器往 VLA 生态里推"的信号,值得连着追踪-PaXini-帕西尼一起盯(数据/传感器规格/是否更多 VTLA 合作)。
⚠️ 单团队小任务预印本,数字引用注明口径。

来源编号¶

[1] arXiv 2508.08706 · 项目/ObjTac · 本地 papers/OmniVTLA-2508.08706.pdf（全文精读 2026-07-01）