与世界交互,需要利用所有可用的感官模态——包括视觉、触觉和音频——来弥补部分观察中的信息缺失。机器人策略通常仅基于视觉和本体感知观察,如何在保留通用机器人策略通过大规模数据预训练所获得的泛化能力的同时,将其语义知识与缺乏大规模数据集支持的异构感官数据相连接是一个挑战。
提出微调通用机器人策略的方法 FuSe,能够在包含视觉补充模态(如触觉和声音)的较小规模数据集上进行训练。
收集了包含 27K 条机器人轨迹的数据集,其中包括视觉、触觉、音频、本体感知和语言指令,涵盖了三种不同的真实世界机器人操作任务。
使用了基于 Transformer 的预训练策略 Octo [4] 作为主干模型,也展示了该微调方法同样适用于基于 PaliGemma [28] VLM 骨干的 3B VLA 模型。
三个挑战:编码器的权重需要从小规模数据集中有效学习、倾向于主要依赖预训练模态、新的跨模态提示能力依赖于模态特定的注释。
使用了 TVL 编码器 [14],该编码器通过视觉、语言和触觉模态的成对对比学习进行预训练。
生成了一个频谱图(spectrogram),通过 ResNet26 编码器 [48] 进行处理。
为了让模型重视新模态,引入两个辅助损失,即
Multimodal Contrastive Loss 通过类似 CLIP 的对比学习 [49] 将各种语言指令与观察对齐。
Multimodal Generative Loss 使用一个单一的 Transformer 作为主干模型额外的生成头部,将每种可能的模态组合输入生成头部,将其输出与相应的语言指令进行比较,计算一个辅助交叉熵损失。