DeeR-VLA

采用多模态大型语言模型（Multimodal Large Language Models, MLLMs）进行端到端机器人控制是可行的。这不仅带来了高效的机器人策略，还展现了一些从大型模型中获得的涌现能力。

然而，每次激活 MLLM 以获得机器人动作时，都需要利用数十亿参数完成计算密集型的推理过程。

观察到，在控制机器人完成多样化任务的过程中，相对“简单”的情境占据了大部分，而这些情境通常只需要较小的模型即可获得正确的机器人动作。基于这一观察，提出了一个动态早退出框架（Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model，DeeR-VLA）

在 3 个 CALVIN LH-MTLC 任务上，DeeR 在不牺牲性能的情况下，将 LLM 的计算成本降低了 5.2-6.5 倍，GPU 内存使用降低了 2-6 倍。

Multi-exit Architecture for Robot

基本 MLLM 主要包括视觉编码器 $E_I$ 和一个 LLM。 $E_I$ 由由 Vision Transformer (ViT) [62] 和 Perceiver Resampler [60] 组成。

对于多模态融合，将可学习的 Cross-attention 块插入每个锁住的 LLM Self-attention 块之前，这让 MLLM 可以称为一个多模态特征提取器 $F_\theta$ ，其中 $l$ 是长度为 $L$ 的语言指令。

$x_t = F_\theta(l, E_I(o_t))$

Visual language model with intermediate exits

把 LLM 层分成 $N$ 个组， $F_\theta^1, \cdots, F_\theta^N$ 。每个组输出一个中间的 hidden state 序列 $x_t^i$ 。如果计算在第 $i$ 层停止，用一个 max-pooling $P$ 去得到 $\tilde x_t^i = P(x_t^i)$ 。

决策环境通常被描述为部分可观测马尔可夫决策过程（POMDP）[63]，最优决策不仅依赖于当前观察 $o_t$ ，还依赖于历史观察。因此采用一个 LSTM 作为动作头 $\pi_\theta$ 去获得大小为 $H$ 的窗口的历史信息，然后好用两个 MLP 去分别预测姿态和开合。

Adaptive Inference

许多现有工作使用基于置信度的标准（如 SoftMax 输出的最大值或熵）来确定何时终止 [37, 43, 65, 66, 49]。

在本工作中，如果来自两个不同规模 MLLM 的动作预测保持一致，则可能表明计算模型可能已达到饱和。也就输说，我们试图找到最小的 $i \in \{1, 2, \cdots, N\}$ ，

$|| \pi_\theta(\tilde x_t^i, h_{t-1}) - \pi_\theta(\tilde x_t^{i-1}, h_{t-1}) ||_2 < \eta_i$

关于 $\eta$ 的取值，可以看作对于

计算成本 FLOPs
峰值计算成本 MFLOPS
GPU 内存使用 Mem

三个的约束条件下，最大化任务成功率 Scc。

可以通过示例数据集求解阈值，如果可以与真实环境交互，也可以通过在线交互求解阈值。

Training Loss

训练时并不清楚何时退出。

提出两种策略：

策略 $s_1$ ：每个事件步从 $1\sim N$ 均匀采样一个出口。
策略 $s_2$ ：将窗口 $o_{t:t+H}$ 随机切为两段，两段各随机采样一个共享出口。

用 $L(a^*, a)$ 代表末端执行器姿态预测的均方误差（MSE）和夹爪状态预测的交叉熵损失的线性组合。

$L^* = \sum_{s \in \{s_1, s_2\}} \sum_{i=0}^{H-1} L(a_{t+i}^{*, s}, a_{t+i})$

同时为了让每个 MLLM 子部分都输出的是适合预测动作的状态，训练时在每个出口附加了一个辅助动作头，从而引入辅助损失

$L_{aux} = \sum_{j=1}^{N} \sum_{i=0}^{H-1} L(a_{t+i}^j, a_{t+i})$

于是总损失函数 $L_{total} = L^* + L_{aux}$ 。