跳转至

梳理 · 触觉机器人的现实问题 × 研究决策地图(问题驱动)

和既有文档的关系全景图-触觉VLA体系技术层排(支撑→表征→世界模型→融合);本页按现实问题排——每个瓶颈是什么、哪些研究在打它、直接还是间接、各自往前挪了哪一步。两页互补:全景图看"有哪些层",本页看"卡在哪、谁在解"。 ⚠️ 本页含 🤖 判断(尤其"优先级""更进一步"栏),待人复核;具体数字以各卡片/论文来源为准。

0. 一句话

机器人触觉不是"缺一个瓶颈",而是从物理到部署的一整个栈都各卡一段。研究界不是在同一个点上竞争,而是分头各推一层;而当前 SOTA(卡片-T-Rex)的启示是——要强就得把几层的进展叠起来(规模 × 反应式 × 好编码),单点突破已不够。

1. 核心限制:机器人触觉 vs 人("盲操作"框架)

人闭着眼/盲人也能操作,靠的是四件事同时在线。机器人每一件都差一截:

人靠什么盲操作 机器人差在哪(现实限制) 属于哪层 好动吗
全手/全身皮肤都有感觉 传感器只在指尖局部,缺手掌/全手稠密触觉 物理·覆盖 🔴 难(等硬件)
触觉闭环极快、不过脑 VLA 骨干低频,触觉反应被"大脑频率"拖累 架构·频率 🟢 正在解(T-Rex)
心里有模型在预判"再往前会碰到什么" 多数策略只被动感知当前、不前瞻 架构·预测 🟡 热点(世界模型)
一辈子的触觉经验 同步视触觉数据稀缺、又贵又难标 数据 🟡 在绕(人类视频/仿真/mid-training)
(隐含)手感稳定、会自适应 传感器五花八门、会漂移、贵且易损 物理·标准化/耐久 🟠 部分(表征统一 / 免触觉降本)

结论(回应"覆盖 + 高频"的假设):你抓的两条都对,但它们在不同层——"覆盖=局部"是物理层限制(硬件问题,算法难直接解),"高频反应回路"是架构层限制(卡片-T-Rex 正在解)。而"盲人能盲操作"这个直觉里其实还藏着预测性内模型(世界模型线)和一辈子的触觉数据(数据稀缺)两条。真正做决策时,得看整栈谁卡得最死、谁已被缓解。

2. 现实问题栈(自下而上五层)

  • A 物理层:① 覆盖=局部(指尖 vs 全手);② 异构/不标准(GelSight/DIGIT/taxel 五花八门);③ 漂移/耐久/成本(会漂、易损、贵)。
  • B 数据层:同步视触觉数据稀缺、采集贵、标注难、仿真有 sim-real gap。
  • C 表征层:把杂牌触觉统一成可迁移 embedding(接大模型的桥);且触觉价值在时间动态,不能当静态图。
  • D 架构/控制层:① 频率错配(高频反应 vs 低频 VLM);② 融合方式(怎么把触觉接进策略——不能当图、不能硬塞);③ 前瞻(预判未来触觉/隐状态)。
  • E 部署层:贵/易损 → 能不能推理时不用触觉硬件、低成本落地。

3. 问题 → 研究 矩阵(谁在打哪个瓶颈,直接/间接,更进一步在哪)

A 物理层

瓶颈 代表研究 直接/间接 更进一步的点 残留
A① 覆盖=局部 —(本库无卡直击;卡片-T-Rex 把"缺手掌稠密触觉"列为未解 尚是开放硬件前沿 全手/全身触觉皮肤仍缺
A② 异构/不标准 卡片-T3 直接 共享 trunk 处理不对齐异构,跨传感器+跨任务可迁移 + FoTa 300万 仍需对齐数据
A② 卡片-AnyTouch 直接 universal sensor token,静+动统一 + TacQuad 对齐集 光学式为主
A② 卡片-TVL 直接 触-视-对齐 + 伪标注配方(省人工) 数据集规模
A③ 漂移/成本 见 E 部署层(免触觉推理是对"贵/易损"的绕解) 间接 —— ——

B 数据层

瓶颈 代表研究 直接/间接 更进一步的点 残留
B 稀缺(规模) 卡片-EgoScale 间接(视觉动作先验,无触觉) 人类第一视角视频扛规模 + scaling law,下游仅少量机器人数据 无触觉,须别处补
B 稀缺(触觉) 卡片-T-Rex 数据集 + 配方 直接 贵模态(触觉)放 mid-training 注入,绕开"预训练要海量视触觉" 采集仍靠遥操作
B 稀缺(仿真/RL) 卡片-TacForeSight 的 TacCoRL 路线 直接 仿真补接触 + RL,不靠大规模触觉预训练 sim-real gap
B 标注 卡片-TVL 直接 VLM 伪标注 + 少量人工核验 伪标噪声

C 表征层(静态→动态)

瓶颈 代表研究 直接/间接 更进一步的点 残留
C 动态表征 卡片-T-Rex 时序触觉 VQ-VAE 直接 力历史→离散抗漂移 token(幅值加权码本) 与具体手绑定
C 动态表征 卡片-ViTacFormer 直接 预测未来触觉 > 感知当前(自回归触觉头) 无预训练、吃自采数据
C 统一表征→策略 卡片-FTP-1 直接(更进一层) 从"表征"跨到"通才触觉策略",直接出动作(复用 T3 编码器) 预印本

D 架构/控制层(本轮进展最猛)

瓶颈 代表研究 直接/间接 更进一步的点 残留
D① 频率错配 卡片-T-Rex 直接(旗舰) 变速率 MoT:高频触觉专家做残差精修,异步级联把反应式接进 VLA 自采 benchmark
D① 卡片-ReactiveDiffusionPolicy 直接(血统源头) 慢-快视触觉扩散策略(但限并爪+任务级 IL) 未上 VLA/预训练
D② 融合方式 卡片-Tactile-VLA 直接 力写进动作空间(当输出维度,非输入)→语言零样本调力 代码未放
D② 卡片-TacVLA 直接 接触门控(硬阈值)+ 低维 token(消融证实 gating 关键) 阈值不可学
D② 卡片-AdapTac-PredictiveForceAttention 直接 力引导预测性注意力自适应融合权重 ——
D② 卡片-TA-VLA 直接 力矩接 VLA 的设计空间:解码器>编码器、历史压单 token 力矩粒度
D② 卡片-OmniVTLA 直接 语义对齐触觉(SA-ViT + 对比)+ ObjTac 数据 ——
D② 卡片-VLA-Touch 直接(工程最省) 外挂双层、不重训 base VLA 精修上限
D② ⚠️负面证据:π0.5+tactile 掉分 —— 坐实"融合方式 > 有无触觉",粗暴当额外 token 硬塞会退化 ——
D③ 前瞻 卡片-TacForeSight 直接 触觉隐空间预测(力→触觉)+ 可学 α 门控 未接通用 VLA
D③ 卡片-LaWAM 对照(视觉侧) 视觉隐空间一步预测(解码器复用) 怕相机运动
D③ 卡片-VT-WM / 卡片-OmniVTA 直接 视触觉联合世界模型(两流预测) 拥挤、较新

E 部署层(成本/可靠性)

瓶颈 代表研究 直接/间接 更进一步的点 残留
E 贵/易损 卡片-FD-VLA 直接 力蒸馏:推理时免力/触觉传感器也有"力感知" 精度上限
E 卡片-HapticVLA 直接 触觉蒸馏 + 安全奖励加权流匹配,推理免触觉,脆物 86.7% 自述数字

4. 研究界的决策思路(三条演进主线)

把上面矩阵竖着看,是三条清晰的"往前走"路径: 1. 能力叠加V+L+A → +T(触觉) → +WM/反应式。从纯视觉语言动作,到加触觉,再到"先预判未来 + 高频反应"。卡片-T-Rex 是这条线目前的集大成(规模×反应式×好编码)。 2. 门控演进常开 → 事件触发([卡片-VLA-Touch](../2-brain/card-VLA-Touch.md)想做) → 硬阈值([卡片-TacVLA](../2-brain/card-TacVLA.md)) → 可学α([卡片-TacForeSight](../2-brain/card-TacForeSight.md)) → 预测性注意力([卡片-AdapTac-PredictiveForceAttention](../2-brain/card-AdapTac-PredictiveForceAttention.md))。共识是触觉不该常开、应像 attention 按接触触发且权重可学。 3. 降本分叉:面对"传感器贵/易损",一支往全手更强硬件走(覆盖,尚缺),一支往免触觉推理走(蒸馏:卡片-FD-VLA/卡片-HapticVLA,工程最现实)。

★ 生物启发(贯穿性设计原则):事件/变化驱动 + 适应

人的指尖不是"一直上报绝对值",而是变化/事件驱动 + 稳态适应: - 快适应型(RA/FA:Meissner/Pacinian) 只在变化时放电(接触起始、滑移、振动、松开),稳态很快沉默 → 对应"只在变化才发信号"与"戴久了没感觉"(习惯化)。 - 慢适应型(SA:Merkel/Ruffini) 持续低频报静压/拉伸 → 保底让你知道"还握着",否则会像适应一样"握着忘了握"、松手掉物。 - Johansson & Flanagan 经典结论(见 概念-触觉控制的神经科学基础):操作围绕离散接触事件组织成动作相,滑移反射 74±9ms(约意图性调整的一半);且校正回路~100ms 太慢→必须预测前馈,不能靠慢反馈兜底 → 控制=预测前馈 + 事件驱动反应

对机器人的三重映射(已在发生): 1. 软件版 = 门控:本页"门控演进"(卡片-TacVLA卡片-TacForeSight卡片-AdapTac-PredictiveForceAttention)本质就是"只在接触/变化时开触觉通道" = 事件驱动 attention。 2. 硬件版 = 神经形态/事件驱动触觉传感器:只在接触状态变化时发脉冲(触觉版事件相机 + 脉冲网络),稀疏、低延迟、低功耗 → 方向卡 卡片-神经形态触觉(库内此前空白,本次登记)。 3. "适应会忘"的修正 = 混合编码卡片-T-Rex 已是范例——VQ 力历史(管变化) + 直接投影当前力(管绝对/稳态) 双通道,正好对应 RA+SA。

额外收益 + 代价:只编码变化(dF/dt)天然弱化慢漂移(缓解本库关心的标定漂移问题),但丢绝对力参考("稳握 2N"做不到)→ 仍须混合

一句话原则触觉该像人一样"事件/变化驱动为主 + 一路慢通道保底"——纯事件不够,纯绝对浪费且怕漂。

5. 核心限制的优先级判断(🤖 我的判断,需复核)

按"卡得死不死 × 好不好动"排: - 最根本但最难动 = A① 覆盖(全手触觉硬件):是"vs 人"最像的差距,但属硬件问题,算法难直接解 → 短期只能(靠腕力/少量指尖 + 前瞻补),长期等硬件。 - 正在被解 = D① 频率错配卡片-T-Rex 已给出可行解(异步高频专家),从"开放难题"降级为"工程问题"。 - 最上游、最该软件攻 = B 数据稀缺:所有大进展(EgoScale 规模、T-Rex mid-training、仿真/RL)本质都在绕它 → 数据配方/采集/仿真是杠杆最高的软件方向。 - 最出活、最拥挤 = D② 融合 + D③ 前瞻:论文最多、迭代最快;"π0.5+tactile 掉分"说明融合方式仍是胜负手,不是已解。 - 最现实的落地 = E 免触觉推理:绕开硬件成本,工程可交付。

一句话优先级:软件团队看 B(数据) + D(融合/反应/前瞻)(杠杆高、在动);A(覆盖) 是硬件长赌E(降本) 是最快落地。你直觉里的"覆盖+高频"恰好一个是硬件长赌、一个已被 T-Rex 解——所以"还大开着的软件缝"其实在跨传感器的统一反应式表征 + 数据配方上。

6. 结论

  • 触觉机器人没有单一银弹瓶颈,是一个栈;不同研究在不同层各进一步,别用"谁最强"横比跨层工作。
  • 判断一篇新工作的价值,问三件事:它打的是哪一层瓶颈?直接还是绕?把那层的旋钮往前拧了多少?(本页矩阵就是按这三问填的。)
  • 当前前沿信号:单层突破已不够卡片-T-Rex 证明 SOTA = 多层进展的组合(卡片-EgoScale 的规模 × 卡片-ReactiveDiffusionPolicy 的反应式 × 时序触觉编码)。

(由本页各层"残留/缝隙"延伸出的原创想法属内部研究产出,此处不展开。)