DeeR-VLA

采用多模态大型语言模型(Multimodal Large Language Models, MLLMs) 进行端到端机器人控制是可行的。这不仅带来了高效的机器人策略,还展现了一些从大型模型中获得的涌现能力。

然而,每次激活 MLLM 以获得机器人动作时,都需要利用数十亿参数完成计算密集型的推理过程。

观察到,在控制机器人完成多样化任务的过程中,相对“简单”的情境占据了大部分,而这些情境通常只需要较小的模型即可获得正确的机器人动作。基于这一观察,提出了一个动态早退出框架(Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model,DeeR-VLA

在 3 个 CALVIN LH-MTLC 任务上,DeeR 在不牺牲性能的情况下,将 LLM 的计算成本降低了 5.2-6.5 倍,GPU 内存使用降低了 2-6 倍。


Multi-exit Architecture for Robot

基本 MLLM 主要包括视觉编码器 EIE_I 和一个 LLM。EIE_I 由 由 Vision Transformer (ViT) [62] 和 Perceiver Resampler [60] 组成。

对于多模态融合,将可学习的 Cross-attention 块插入每个锁住的 LLM Self-attention 块之前,这让 MLLM 可以称为一个多模态特征提取器 FθF_\theta,其中 ll 是长度为 LL 的语言指令。

xt=Fθ(l,EI(ot))x_t = F_\theta(l, E_I(o_t))

Visual language model with intermediate exits

把 LLM 层分成 NN 个组,Fθ1,,FθNF_\theta^1, \cdots, F_\theta^N。每个组输出一个中间的 hidden state 序列 xtix_t^i。如果计算在第 ii 层停止,用一个 max-pooling PP 去得到 x~ti=P(xti)\tilde x_t^i = P(x_t^i)

决策环境通常被描述为部分可观测马尔可夫决策过程(POMDP)[63],最优决策不仅依赖于当前观察 oto_t,还依赖于历史观察。因此采用一个 LSTM 作为动作头 πθ\pi_\theta 去获得大小为 HH 的窗口的历史信息,然后好用两个 MLP 去分别预测姿态和开合。

Adaptive Inference

许多现有工作使用基于置信度的标准(如 SoftMax 输出的最大值或熵)来确定何时终止 [37, 43, 65, 66, 49]。

在本工作中,如果来自两个不同规模 MLLM 的动作预测保持一致,则可能表明计算模型可能已达到饱和。也就输说,我们试图找到最小的 i{1,2,,N}i \in \{1, 2, \cdots, N\}

πθ(x~ti,ht1)πθ(x~ti1,ht1)2<ηi|| \pi_\theta(\tilde x_t^i, h_{t-1}) - \pi_\theta(\tilde x_t^{i-1}, h_{t-1}) ||_2 < \eta_i

关于 η\eta 的取值,可以看作对于

三个的约束条件下,最大化任务成功率 Scc。

可以通过示例数据集求解阈值,如果可以与真实环境交互,也可以通过在线交互求解阈值。

Training Loss

训练时并不清楚何时退出。

提出两种策略:

  1. 策略 s1s_1:每个事件步从 1N1\sim N 均匀采样一个出口。
  2. 策略 s2s_2:将窗口 ot:t+Ho_{t:t+H} 随机切为两段,两段各随机采样一个共享出口。

L(a,a)L(a^*, a) 代表末端执行器姿态预测的均方误差(MSE)和夹爪状态预测的交叉熵损失的线性组合。

L=s{s1,s2}i=0H1L(at+i,s,at+i)L^* = \sum_{s \in \{s_1, s_2\}} \sum_{i=0}^{H-1} L(a_{t+i}^{*, s}, a_{t+i})

同时为了让每个 MLLM 子部分都输出的是适合预测动作的状态,训练时在每个出口附加了一个辅助动作头,从而引入辅助损失

Laux=j=1Ni=0H1L(at+ij,at+i)L_{aux} = \sum_{j=1}^{N} \sum_{i=0}^{H-1} L(a_{t+i}^j, a_{t+i})

于是总损失函数 Ltotal=L+LauxL_{total} = L^* + L_{aux}