梳理 · 触觉机器人的现实问题 × 研究决策地图(问题驱动)¶
和既有文档的关系:全景图-触觉VLA体系 按技术层排(支撑→表征→世界模型→融合);本页按现实问题排——每个瓶颈是什么、哪些研究在打它、直接还是间接、各自往前挪了哪一步。两页互补:全景图看"有哪些层",本页看"卡在哪、谁在解"。 ⚠️ 本页含 🤖 判断(尤其"优先级""更进一步"栏),待人复核;具体数字以各卡片/论文来源为准。
0. 一句话¶
机器人触觉不是"缺一个瓶颈",而是从物理到部署的一整个栈都各卡一段。研究界不是在同一个点上竞争,而是分头各推一层;而当前 SOTA(卡片-T-Rex)的启示是——要强就得把几层的进展叠起来(规模 × 反应式 × 好编码),单点突破已不够。
1. 核心限制:机器人触觉 vs 人("盲操作"框架)¶
人闭着眼/盲人也能操作,靠的是四件事同时在线。机器人每一件都差一截:
| 人靠什么盲操作 | 机器人差在哪(现实限制) | 属于哪层 | 好动吗 |
|---|---|---|---|
| 全手/全身皮肤都有感觉 | 传感器只在指尖局部,缺手掌/全手稠密触觉 | 物理·覆盖 | 🔴 难(等硬件) |
| 触觉闭环极快、不过脑 | VLA 骨干低频,触觉反应被"大脑频率"拖累 | 架构·频率 | 🟢 正在解(T-Rex) |
| 心里有模型在预判"再往前会碰到什么" | 多数策略只被动感知当前、不前瞻 | 架构·预测 | 🟡 热点(世界模型) |
| 一辈子的触觉经验 | 同步视触觉数据稀缺、又贵又难标 | 数据 | 🟡 在绕(人类视频/仿真/mid-training) |
| (隐含)手感稳定、会自适应 | 传感器五花八门、会漂移、贵且易损 | 物理·标准化/耐久 | 🟠 部分(表征统一 / 免触觉降本) |
结论(回应"覆盖 + 高频"的假设):你抓的两条都对,但它们在不同层——"覆盖=局部"是物理层限制(硬件问题,算法难直接解),"高频反应回路"是架构层限制(卡片-T-Rex 正在解)。而"盲人能盲操作"这个直觉里其实还藏着预测性内模型(世界模型线)和一辈子的触觉数据(数据稀缺)两条。真正做决策时,得看整栈谁卡得最死、谁已被缓解。
2. 现实问题栈(自下而上五层)¶
- A 物理层:① 覆盖=局部(指尖 vs 全手);② 异构/不标准(GelSight/DIGIT/taxel 五花八门);③ 漂移/耐久/成本(会漂、易损、贵)。
- B 数据层:同步视触觉数据稀缺、采集贵、标注难、仿真有 sim-real gap。
- C 表征层:把杂牌触觉统一成可迁移 embedding(接大模型的桥);且触觉价值在时间动态,不能当静态图。
- D 架构/控制层:① 频率错配(高频反应 vs 低频 VLM);② 融合方式(怎么把触觉接进策略——不能当图、不能硬塞);③ 前瞻(预判未来触觉/隐状态)。
- E 部署层:贵/易损 → 能不能推理时不用触觉硬件、低成本落地。
3. 问题 → 研究 矩阵(谁在打哪个瓶颈,直接/间接,更进一步在哪)¶
A 物理层¶
| 瓶颈 | 代表研究 | 直接/间接 | 更进一步的点 | 残留 |
|---|---|---|---|---|
| A① 覆盖=局部 | —(本库无卡直击;卡片-T-Rex 把"缺手掌稠密触觉"列为未解) | — | 尚是开放硬件前沿 | 全手/全身触觉皮肤仍缺 |
| A② 异构/不标准 | 卡片-T3 | 直接 | 共享 trunk 处理不对齐异构,跨传感器+跨任务可迁移 + FoTa 300万 | 仍需对齐数据 |
| A② | 卡片-AnyTouch | 直接 | universal sensor token,静+动统一 + TacQuad 对齐集 | 光学式为主 |
| A② | 卡片-TVL | 直接 | 触-视-语对齐 + 伪标注配方(省人工) | 数据集规模 |
| A③ 漂移/成本 | 见 E 部署层(免触觉推理是对"贵/易损"的绕解) | 间接 | —— | —— |
B 数据层¶
| 瓶颈 | 代表研究 | 直接/间接 | 更进一步的点 | 残留 |
|---|---|---|---|---|
| B 稀缺(规模) | 卡片-EgoScale | 间接(视觉动作先验,无触觉) | 人类第一视角视频扛规模 + scaling law,下游仅少量机器人数据 | 无触觉,须别处补 |
| B 稀缺(触觉) | 卡片-T-Rex 数据集 + 配方 | 直接 | 贵模态(触觉)放 mid-training 注入,绕开"预训练要海量视触觉" | 采集仍靠遥操作 |
| B 稀缺(仿真/RL) | 卡片-TacForeSight 的 TacCoRL 路线 | 直接 | 仿真补接触 + RL,不靠大规模触觉预训练 | sim-real gap |
| B 标注 | 卡片-TVL | 直接 | VLM 伪标注 + 少量人工核验 | 伪标噪声 |
C 表征层(静态→动态)¶
| 瓶颈 | 代表研究 | 直接/间接 | 更进一步的点 | 残留 |
|---|---|---|---|---|
| C 动态表征 | 卡片-T-Rex 时序触觉 VQ-VAE | 直接 | 力历史→离散抗漂移 token(幅值加权码本) | 与具体手绑定 |
| C 动态表征 | 卡片-ViTacFormer | 直接 | 预测未来触觉 > 感知当前(自回归触觉头) | 无预训练、吃自采数据 |
| C 统一表征→策略 | 卡片-FTP-1 | 直接(更进一层) | 从"表征"跨到"通才触觉策略",直接出动作(复用 T3 编码器) | 预印本 |
D 架构/控制层(本轮进展最猛)¶
| 瓶颈 | 代表研究 | 直接/间接 | 更进一步的点 | 残留 |
|---|---|---|---|---|
| D① 频率错配 | 卡片-T-Rex | 直接(旗舰) | 变速率 MoT:高频触觉专家做残差精修,异步级联把反应式接进 VLA | 自采 benchmark |
| D① | 卡片-ReactiveDiffusionPolicy | 直接(血统源头) | 慢-快视触觉扩散策略(但限并爪+任务级 IL) | 未上 VLA/预训练 |
| D② 融合方式 | 卡片-Tactile-VLA | 直接 | 把力写进动作空间(当输出维度,非输入)→语言零样本调力 | 代码未放 |
| D② | 卡片-TacVLA | 直接 | 接触门控(硬阈值)+ 低维 token(消融证实 gating 关键) | 阈值不可学 |
| D② | 卡片-AdapTac-PredictiveForceAttention | 直接 | 力引导预测性注意力自适应融合权重 | —— |
| D② | 卡片-TA-VLA | 直接 | 力矩接 VLA 的设计空间:解码器>编码器、历史压单 token | 力矩粒度 |
| D② | 卡片-OmniVTLA | 直接 | 语义对齐触觉(SA-ViT + 对比)+ ObjTac 数据 | —— |
| D② | 卡片-VLA-Touch | 直接(工程最省) | 外挂双层、不重训 base VLA | 精修上限 |
| D② | ⚠️负面证据:π0.5+tactile 掉分 | —— | 坐实"融合方式 > 有无触觉",粗暴当额外 token 硬塞会退化 | —— |
| D③ 前瞻 | 卡片-TacForeSight | 直接 | 触觉隐空间预测(力→触觉)+ 可学 α 门控 | 未接通用 VLA |
| D③ | 卡片-LaWAM | 对照(视觉侧) | 视觉隐空间一步预测(解码器复用) | 怕相机运动 |
| D③ | 卡片-VT-WM / 卡片-OmniVTA | 直接 | 视触觉联合世界模型(两流预测) | 拥挤、较新 |
E 部署层(成本/可靠性)¶
| 瓶颈 | 代表研究 | 直接/间接 | 更进一步的点 | 残留 |
|---|---|---|---|---|
| E 贵/易损 | 卡片-FD-VLA | 直接 | 力蒸馏:推理时免力/触觉传感器也有"力感知" | 精度上限 |
| E | 卡片-HapticVLA | 直接 | 触觉蒸馏 + 安全奖励加权流匹配,推理免触觉,脆物 86.7% | 自述数字 |
4. 研究界的决策思路(三条演进主线)¶
把上面矩阵竖着看,是三条清晰的"往前走"路径:
1. 能力叠加:V+L+A → +T(触觉) → +WM/反应式。从纯视觉语言动作,到加触觉,再到"先预判未来 + 高频反应"。卡片-T-Rex 是这条线目前的集大成(规模×反应式×好编码)。
2. 门控演进:常开 → 事件触发([卡片-VLA-Touch](../2-brain/card-VLA-Touch.md)想做) → 硬阈值([卡片-TacVLA](../2-brain/card-TacVLA.md)) → 可学α([卡片-TacForeSight](../2-brain/card-TacForeSight.md)) → 预测性注意力([卡片-AdapTac-PredictiveForceAttention](../2-brain/card-AdapTac-PredictiveForceAttention.md))。共识是触觉不该常开、应像 attention 按接触触发且权重可学。
3. 降本分叉:面对"传感器贵/易损",一支往全手更强硬件走(覆盖,尚缺),一支往免触觉推理走(蒸馏:卡片-FD-VLA/卡片-HapticVLA,工程最现实)。
★ 生物启发(贯穿性设计原则):事件/变化驱动 + 适应¶
人的指尖不是"一直上报绝对值",而是变化/事件驱动 + 稳态适应: - 快适应型(RA/FA:Meissner/Pacinian) 只在变化时放电(接触起始、滑移、振动、松开),稳态很快沉默 → 对应"只在变化才发信号"与"戴久了没感觉"(习惯化)。 - 慢适应型(SA:Merkel/Ruffini) 持续低频报静压/拉伸 → 保底让你知道"还握着",否则会像适应一样"握着忘了握"、松手掉物。 - Johansson & Flanagan 经典结论(见 概念-触觉控制的神经科学基础):操作围绕离散接触事件组织成动作相,滑移反射 74±9ms(约意图性调整的一半);且校正回路~100ms 太慢→必须预测前馈,不能靠慢反馈兜底 → 控制=预测前馈 + 事件驱动反应。
对机器人的三重映射(已在发生): 1. 软件版 = 门控:本页"门控演进"(卡片-TacVLA→卡片-TacForeSight→卡片-AdapTac-PredictiveForceAttention)本质就是"只在接触/变化时开触觉通道" = 事件驱动 attention。 2. 硬件版 = 神经形态/事件驱动触觉传感器:只在接触状态变化时发脉冲(触觉版事件相机 + 脉冲网络),稀疏、低延迟、低功耗 → 方向卡 卡片-神经形态触觉(库内此前空白,本次登记)。 3. "适应会忘"的修正 = 混合编码:卡片-T-Rex 已是范例——VQ 力历史(管变化) + 直接投影当前力(管绝对/稳态) 双通道,正好对应 RA+SA。
额外收益 + 代价:只编码变化(dF/dt)天然弱化慢漂移(缓解本库关心的标定漂移问题),但丢绝对力参考("稳握 2N"做不到)→ 仍须混合。
一句话原则:触觉该像人一样"事件/变化驱动为主 + 一路慢通道保底"——纯事件不够,纯绝对浪费且怕漂。
5. 核心限制的优先级判断(🤖 我的判断,需复核)¶
按"卡得死不死 × 好不好动"排: - 最根本但最难动 = A① 覆盖(全手触觉硬件):是"vs 人"最像的差距,但属硬件问题,算法难直接解 → 短期只能绕(靠腕力/少量指尖 + 前瞻补),长期等硬件。 - 正在被解 = D① 频率错配:卡片-T-Rex 已给出可行解(异步高频专家),从"开放难题"降级为"工程问题"。 - 最上游、最该软件攻 = B 数据稀缺:所有大进展(EgoScale 规模、T-Rex mid-training、仿真/RL)本质都在绕它 → 数据配方/采集/仿真是杠杆最高的软件方向。 - 最出活、最拥挤 = D② 融合 + D③ 前瞻:论文最多、迭代最快;"π0.5+tactile 掉分"说明融合方式仍是胜负手,不是已解。 - 最现实的落地 = E 免触觉推理:绕开硬件成本,工程可交付。
一句话优先级:软件团队看 B(数据) + D(融合/反应/前瞻)(杠杆高、在动);A(覆盖) 是硬件长赌;E(降本) 是最快落地。你直觉里的"覆盖+高频"恰好一个是硬件长赌、一个已被 T-Rex 解——所以"还大开着的软件缝"其实在跨传感器的统一反应式表征 + 数据配方上。
6. 结论¶
- 触觉机器人没有单一银弹瓶颈,是一个栈;不同研究在不同层各进一步,别用"谁最强"横比跨层工作。
- 判断一篇新工作的价值,问三件事:它打的是哪一层瓶颈?直接还是绕?把那层的旋钮往前拧了多少?(本页矩阵就是按这三问填的。)
- 当前前沿信号:单层突破已不够,卡片-T-Rex 证明 SOTA = 多层进展的组合(卡片-EgoScale 的规模 × 卡片-ReactiveDiffusionPolicy 的反应式 × 时序触觉编码)。
(由本页各层"残留/缝隙"延伸出的原创想法属内部研究产出,此处不展开。)