梳理 · 触觉机器人的现实问题 × 研究决策地图（问题驱动）¶

和既有文档的关系：全景图-触觉VLA体系按技术层排（支撑→表征→世界模型→融合）；本页按现实问题排——每个瓶颈是什么、哪些研究在打它、直接还是间接、各自往前挪了哪一步。两页互补：全景图看"有哪些层"，本页看"卡在哪、谁在解"。 ⚠️ 本页含 🤖 判断（尤其"优先级""更进一步"栏），待人复核；具体数字以各卡片/论文来源为准。

0. 一句话¶

机器人触觉不是"缺一个瓶颈"，而是从物理到部署的一整个栈都各卡一段。研究界不是在同一个点上竞争，而是分头各推一层；而当前 SOTA（卡片-T-Rex）的启示是——要强就得把几层的进展叠起来（规模 × 反应式 × 好编码），单点突破已不够。

1. 核心限制：机器人触觉 vs 人（"盲操作"框架）¶

人闭着眼/盲人也能操作，靠的是四件事同时在线。机器人每一件都差一截：

人靠什么盲操作	机器人差在哪（现实限制）	属于哪层	好动吗
全手/全身皮肤都有感觉	传感器只在指尖局部，缺手掌/全手稠密触觉	物理·覆盖	🔴 难（等硬件）
触觉闭环极快、不过脑	VLA 骨干低频，触觉反应被"大脑频率"拖累	架构·频率	🟢 正在解（T-Rex）
心里有模型在预判"再往前会碰到什么"	多数策略只被动感知当前、不前瞻	架构·预测	🟡 热点（世界模型）
一辈子的触觉经验	同步视触觉数据稀缺、又贵又难标	数据	🟡 在绕（人类视频/仿真/mid-training）
（隐含）手感稳定、会自适应	传感器五花八门、会漂移、贵且易损	物理·标准化/耐久	🟠 部分（表征统一 / 免触觉降本）

结论（回应"覆盖 + 高频"的假设）：你抓的两条都对，但它们在不同层——"覆盖=局部"是物理层限制（硬件问题，算法难直接解），"高频反应回路"是架构层限制（卡片-T-Rex 正在解）。而"盲人能盲操作"这个直觉里其实还藏着预测性内模型（世界模型线）和一辈子的触觉数据（数据稀缺）两条。真正做决策时，得看整栈谁卡得最死、谁已被缓解。

2. 现实问题栈（自下而上五层）¶

A 物理层：① 覆盖=局部（指尖 vs 全手）；② 异构/不标准（GelSight/DIGIT/taxel 五花八门）；③ 漂移/耐久/成本（会漂、易损、贵）。
B 数据层：同步视触觉数据稀缺、采集贵、标注难、仿真有 sim-real gap。
C 表征层：把杂牌触觉统一成可迁移 embedding（接大模型的桥）；且触觉价值在时间动态，不能当静态图。
D 架构/控制层：① 频率错配（高频反应 vs 低频 VLM）；② 融合方式（怎么把触觉接进策略——不能当图、不能硬塞）；③ 前瞻（预判未来触觉/隐状态）。
E 部署层：贵/易损 → 能不能推理时不用触觉硬件、低成本落地。

3. 问题 → 研究矩阵（谁在打哪个瓶颈，直接/间接，更进一步在哪）¶

A 物理层¶

瓶颈	代表研究	直接/间接	更进一步的点	残留
A① 覆盖=局部	—（本库无卡直击；卡片-T-Rex 把"缺手掌稠密触觉"列为未解）	—	尚是开放硬件前沿	全手/全身触觉皮肤仍缺
A② 异构/不标准	卡片-T3	直接	共享 trunk 处理不对齐异构，跨传感器+跨任务可迁移 + FoTa 300万	仍需对齐数据
A②	卡片-AnyTouch	直接	universal sensor token，静+动统一 + TacQuad 对齐集	光学式为主
A②	卡片-TVL	直接	触-视-语对齐 + 伪标注配方（省人工）	数据集规模
A③ 漂移/成本	见 E 部署层（免触觉推理是对"贵/易损"的绕解）	间接	——	——

B 数据层¶

瓶颈	代表研究	直接/间接	更进一步的点	残留
B 稀缺（规模）	卡片-EgoScale	间接（视觉动作先验，无触觉）	人类第一视角视频扛规模 + scaling law，下游仅少量机器人数据	无触觉，须别处补
B 稀缺（触觉）	卡片-T-Rex 数据集 + 配方	直接	贵模态(触觉)放 mid-training 注入，绕开"预训练要海量视触觉"	采集仍靠遥操作
B 稀缺（仿真/RL）	卡片-TacForeSight 的 TacCoRL 路线	直接	仿真补接触 + RL，不靠大规模触觉预训练	sim-real gap
B 标注	卡片-TVL	直接	VLM 伪标注 + 少量人工核验	伪标噪声

C 表征层（静态→动态）¶

瓶颈	代表研究	直接/间接	更进一步的点	残留
C 动态表征	卡片-T-Rex 时序触觉 VQ-VAE	直接	力历史→离散抗漂移 token（幅值加权码本）	与具体手绑定
C 动态表征	卡片-ViTacFormer	直接	预测未来触觉 > 感知当前（自回归触觉头）	无预训练、吃自采数据
C 统一表征→策略	卡片-FTP-1	直接（更进一层）	从"表征"跨到"通才触觉策略"，直接出动作（复用 T3 编码器）	预印本

D 架构/控制层（本轮进展最猛）¶

瓶颈	代表研究	直接/间接	更进一步的点	残留
D① 频率错配	卡片-T-Rex	直接（旗舰）	变速率 MoT：高频触觉专家做残差精修，异步级联把反应式接进 VLA	自采 benchmark
D①	卡片-ReactiveDiffusionPolicy	直接（血统源头）	慢-快视触觉扩散策略（但限并爪+任务级 IL）	未上 VLA/预训练
D② 融合方式	卡片-Tactile-VLA	直接	把力写进动作空间（当输出维度，非输入）→语言零样本调力	代码未放
D②	卡片-TacVLA	直接	接触门控（硬阈值）+ 低维 token（消融证实 gating 关键）	阈值不可学
D②	卡片-AdapTac-PredictiveForceAttention	直接	力引导预测性注意力自适应融合权重	——
D②	卡片-TA-VLA	直接	力矩接 VLA 的设计空间：解码器>编码器、历史压单 token	力矩粒度
D②	卡片-OmniVTLA	直接	语义对齐触觉（SA-ViT + 对比）+ ObjTac 数据	——
D②	卡片-VLA-Touch	直接（工程最省）	外挂双层、不重训 base VLA	精修上限
D②	⚠️负面证据：π0.5+tactile 掉分	——	坐实"融合方式 > 有无触觉"，粗暴当额外 token 硬塞会退化	——
D③ 前瞻	卡片-TacForeSight	直接	触觉隐空间预测（力→触觉）+ 可学 α 门控	未接通用 VLA
D③	卡片-LaWAM	对照（视觉侧）	视觉隐空间一步预测（解码器复用）	怕相机运动
D③	卡片-VT-WM / 卡片-OmniVTA	直接	视触觉联合世界模型（两流预测）	拥挤、较新

E 部署层（成本/可靠性）¶

瓶颈	代表研究	直接/间接	更进一步的点	残留
E 贵/易损	卡片-FD-VLA	直接	力蒸馏：推理时免力/触觉传感器也有"力感知"	精度上限
E	卡片-HapticVLA	直接	触觉蒸馏 + 安全奖励加权流匹配，推理免触觉，脆物 86.7%	自述数字

4. 研究界的决策思路（三条演进主线）¶

把上面矩阵竖着看，是三条清晰的"往前走"路径： 1. 能力叠加：V+L+A → +T(触觉) → +WM/反应式。从纯视觉语言动作，到加触觉，再到"先预判未来 + 高频反应"。卡片-T-Rex 是这条线目前的集大成（规模×反应式×好编码）。 2. 门控演进：常开 → 事件触发([卡片-VLA-Touch](../2-brain/card-VLA-Touch.md)想做) → 硬阈值([卡片-TacVLA](../2-brain/card-TacVLA.md)) → 可学α([卡片-TacForeSight](../2-brain/card-TacForeSight.md)) → 预测性注意力([卡片-AdapTac-PredictiveForceAttention](../2-brain/card-AdapTac-PredictiveForceAttention.md))。共识是触觉不该常开、应像 attention 按接触触发且权重可学。 3. 降本分叉：面对"传感器贵/易损"，一支往全手更强硬件走（覆盖，尚缺），一支往免触觉推理走（蒸馏：卡片-FD-VLA/卡片-HapticVLA，工程最现实）。

★ 生物启发（贯穿性设计原则）：事件/变化驱动 + 适应¶

人的指尖不是"一直上报绝对值"，而是变化/事件驱动 + 稳态适应： - 快适应型(RA/FA：Meissner/Pacinian) 只在变化时放电（接触起始、滑移、振动、松开），稳态很快沉默 → 对应"只在变化才发信号"与"戴久了没感觉"（习惯化）。 - 慢适应型(SA：Merkel/Ruffini) 持续低频报静压/拉伸 → 保底让你知道"还握着"，否则会像适应一样"握着忘了握"、松手掉物。 - Johansson & Flanagan 经典结论（见概念-触觉控制的神经科学基础）：操作围绕离散接触事件组织成动作相，滑移反射 74±9ms（约意图性调整的一半）；且校正回路~100ms 太慢→必须预测前馈，不能靠慢反馈兜底 → 控制=预测前馈 + 事件驱动反应。

对机器人的三重映射（已在发生）： 1. 软件版 = 门控：本页"门控演进"（卡片-TacVLA→卡片-TacForeSight→卡片-AdapTac-PredictiveForceAttention）本质就是"只在接触/变化时开触觉通道" = 事件驱动 attention。 2. 硬件版 = 神经形态/事件驱动触觉传感器：只在接触状态变化时发脉冲（触觉版事件相机 + 脉冲网络），稀疏、低延迟、低功耗 → 方向卡卡片-神经形态触觉（库内此前空白，本次登记）。 3. "适应会忘"的修正 = 混合编码：卡片-T-Rex 已是范例——VQ 力历史(管变化) + 直接投影当前力(管绝对/稳态) 双通道，正好对应 RA+SA。

额外收益 + 代价：只编码变化(dF/dt)天然弱化慢漂移（缓解本库关心的标定漂移问题），但丢绝对力参考（"稳握 2N"做不到）→ 仍须混合。

一句话原则：触觉该像人一样"事件/变化驱动为主 + 一路慢通道保底"——纯事件不够，纯绝对浪费且怕漂。

5. 核心限制的优先级判断（🤖 我的判断，需复核）¶

按"卡得死不死 × 好不好动"排： - 最根本但最难动 = A① 覆盖（全手触觉硬件）：是"vs 人"最像的差距，但属硬件问题，算法难直接解 → 短期只能绕（靠腕力/少量指尖 + 前瞻补），长期等硬件。 - 正在被解 = D① 频率错配：卡片-T-Rex 已给出可行解（异步高频专家），从"开放难题"降级为"工程问题"。 - 最上游、最该软件攻 = B 数据稀缺：所有大进展（EgoScale 规模、T-Rex mid-training、仿真/RL）本质都在绕它 → 数据配方/采集/仿真是杠杆最高的软件方向。 - 最出活、最拥挤 = D② 融合 + D③ 前瞻：论文最多、迭代最快；"π0.5+tactile 掉分"说明融合方式仍是胜负手，不是已解。 - 最现实的落地 = E 免触觉推理：绕开硬件成本，工程可交付。

一句话优先级：软件团队看 B(数据) + D(融合/反应/前瞻)（杠杆高、在动）；A(覆盖) 是硬件长赌；E(降本) 是最快落地。你直觉里的"覆盖+高频"恰好一个是硬件长赌、一个已被 T-Rex 解——所以"还大开着的软件缝"其实在跨传感器的统一反应式表征 + 数据配方上。

6. 结论¶

触觉机器人没有单一银弹瓶颈，是一个栈；不同研究在不同层各进一步，别用"谁最强"横比跨层工作。
判断一篇新工作的价值，问三件事：它打的是哪一层瓶颈？直接还是绕？把那层的旋钮往前拧了多少？（本页矩阵就是按这三问填的。）
当前前沿信号：单层突破已不够，卡片-T-Rex 证明 SOTA = 多层进展的组合（卡片-EgoScale 的规模 × 卡片-ReactiveDiffusionPolicy 的反应式 × 时序触觉编码）。

（由本页各层"残留/缝隙"延伸出的原创想法属内部研究产出，此处不展开。）