采用多模态大型语言模型(Multimodal Large Language Models, MLLMs) 进行端到端机器人控制是可行的。这不仅带来了高效的机器人策略,还展现了一些从大型模型中获得的涌现能力。
然而,每次激活 MLLM 以获得机器人动作时,都需要利用数十亿参数完成计算密集型的推理过程。
观察到,在控制机器人完成多样化任务的过程中,相对“简单”的情境占据了大部分,而这些情境通常只需要较小的模型即可获得正确的机器人动作。基于这一观察,提出了一个动态早退出框架(Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model,DeeR-VLA)
在 3 个 CALVIN LH-MTLC 任务上,DeeR 在不牺牲性能的情况下,将 LLM 的计算成本降低了 5.2-6.5 倍,GPU 内存使用降低了 2-6 倍。
基本 MLLM 主要包括视觉编码器 和一个 LLM。 由 由 Vision Transformer (ViT) [62] 和 Perceiver Resampler [60] 组成。
对于多模态融合,将可学习的 Cross-attention 块插入每个锁住的 LLM Self-attention 块之前,这让 MLLM 可以称为一个多模态特征提取器 ,其中 是长度为 的语言指令。
把 LLM 层分成 个组,。每个组输出一个中间的 hidden state 序列 。如果计算在第 层停止,用一个 max-pooling 去得到 。
决策环境通常被描述为部分可观测马尔可夫决策过程(POMDP)[63],最优决策不仅依赖于当前观察 ,还依赖于历史观察。因此采用一个 LSTM 作为动作头 去获得大小为 的窗口的历史信息,然后好用两个 MLP 去分别预测姿态和开合。
许多现有工作使用基于置信度的标准(如 SoftMax 输出的最大值或熵)来确定何时终止 [37, 43, 65, 66, 49]。
在本工作中,如果来自两个不同规模 MLLM 的动作预测保持一致,则可能表明计算模型可能已达到饱和。也就输说,我们试图找到最小的 ,
关于 的取值,可以看作对于
三个的约束条件下,最大化任务成功率 Scc。
可以通过示例数据集求解阈值,如果可以与真实环境交互,也可以通过在线交互求解阈值。
训练时并不清楚何时退出。
提出两种策略:
用 代表末端执行器姿态预测的均方误差(MSE)和夹爪状态预测的交叉熵损失的线性组合。
同时为了让每个 MLLM 子部分都输出的是适合预测动作的状态,训练时在每个出口附加了一个辅助动作头,从而引入辅助损失
于是总损失函数 。