CogACT

为了解决从 VLM 直接改造得到的 VLA 效果不尽如人意的问题，本文提出一种从 VLM 衍生的新型 VLA 模型架构 CogACT，将“认知”（Cognition）和“动作”（Action）能力解耦，包含一个专门的基于 Diffusion Transformer (DiT) 的动作模块。这个动作模块以认知模型的输出为条件，进行动作信号建模。

基于 DiT 的序列建模显著优于单步动作预测。更重要的是，动作模块在 DiT 上有良好扩展性：在 7B 参数的 VLM 基础上增加几亿参数（相对较小的增量）即可带来显著的性能提升。

同时提出了一种自适应动作集成（Adaptive Action Ensemble, AAE）算法，用于以自适应方式融合过去的动作预测。

在 Open X-Embodiment (OXE) 数据集 [48] 上效果很好，超过已有方法 Octo [62]，OpenVLA [30]，还展现了对新机器人和任务的快速适应能力。

模型通过语言、视觉预测接下来的动作序列

$\pi : (l, o_t) \to (a_t, a_{t+1}, \cdots, a_{t + N})$

将 $\pi$ 拆分为视觉模块（vision module）、语言模块（language module）以及一个专门的动作模块（action module）。

Vision module

由 Transformer 模型 DINOv2 [49] 和 SigLIP [74] 组成，将 $o_t$ 输入这两个模型，生成特征 $f_t^{DINO}$ 和 $f_t^{Sig}$ 然后拼接通过 Linear 得到长度 $N_V = 256$ 的 $V = \{v_1, v_2, \cdots, v_{N_V}\}$ 。

Language module

使用 LLAMA-2 模型 [64] 作为主干，得到语言 token $T$ 之后和视觉 token $V$ 和额外的可学习的 cognition token $c$ 拼接，通过 casual attention 得到 $f_t^c$ 作为后续动作模块的条件输入，用于推导目标动作。

Diffusion Action Module

动作模块以认知特征 $f_t^c$ 和带噪动作 $(a_t^i, a_{t+1}^i, \cdots, a_{t+N}^i)$ （以及将 $i$ 用正弦位置编码加入特征）作为 DiT 的输入， $i$ 是去噪步骤，然后预测得到最终的动作 $(a_t, a_{t+1}, \cdots, a_{t+N})$ 。

预测未来动作 $N$ 设置为一个较小的值 $N = 15$ 。

损失函数为

$L_{MSE} = {\mathbb E}_{\epsilon \sim N(0, 1), i} || \hat \epsilon_i - \epsilon ||_2$

Adaptive Action Ensemble

在推理过程中，直接根据 $o_t$ 执行多个时间步的动作，或者只执行当前事件步的动作都会导致动作不平滑。

提出了一种 AAE，考虑了待聚合动作之间的相似性，从而避免了来自不同模式的动作的不合理聚合，令 $a_t | o_t$ 表示基于当前观测 $o_t$ 的动作预测， $\{a_t | o_{t-K}, \cdots, a_t | o_{t-1} \}$ 表示基于历史观测 $\{ o_{t-K}, \cdots, o_{t-1} \}$ 的观测，将 $t$ 的执行动作定义为

$\hat a_t = \sum_{k=0}^{K} w_{k}^{ada} \cdot a_t | o_{t-k}$

其中 $w_{k}^{ada}$ 赋予与当前预测 $\{a_t|o_t\}$ 更相似的历史预测更大权重

$w_k^{ada} = \exp(\alpha \left<a_t|o_t, a_t|o_{t-k}\right>)$