CogACT

为了解决从 VLM 直接改造得到的 VLA 效果不尽如人意的问题,本文提出一种从 VLM 衍生的新型 VLA 模型架构 CogACT,将“认知”(Cognition)和“动作”(Action)能力解耦,包含一个专门的基于 Diffusion Transformer (DiT) 的动作模块。这个动作模块以认知模型的输出为条件,进行动作信号建模。

基于 DiT 的序列建模显著优于单步动作预测。更重要的是,动作模块在 DiT 上有良好扩展性:在 7B 参数的 VLM 基础上增加几亿参数(相对较小的增量)即可带来显著的性能提升。

同时提出了一种自适应动作集成(Adaptive Action Ensemble, AAE)算法,用于以自适应方式融合过去的动作预测。

在 Open X-Embodiment (OXE) 数据集 [48] 上效果很好,超过已有方法 Octo [62],OpenVLA [30],还展现了对新机器人和任务的快速适应能力。


模型通过语言、视觉预测接下来的动作序列

π:(l,ot)(at,at+1,,at+N)\pi : (l, o_t) \to (a_t, a_{t+1}, \cdots, a_{t + N})

π\pi 拆分为视觉模块(vision module)、语言模块(language module)以及一个专门的动作模块(action module)。

Vision module

由 Transformer 模型 DINOv2 [49] 和 SigLIP [74] 组成,将 oto_t 输入这两个模型,生成特征 ftDINOf_t^{DINO}ftSigf_t^{Sig} 然后拼接通过 Linear 得到长度 NV=256N_V = 256V={v1,v2,,vNV}V = \{v_1, v_2, \cdots, v_{N_V}\}

Language module

使用 LLAMA-2 模型 [64] 作为主干,得到语言 token TT 之后和视觉 token VV 和额外的可学习的 cognition token cc 拼接,通过 casual attention 得到 ftcf_t^c 作为后续动作模块的条件输入,用于推导目标动作。

Diffusion Action Module

动作模块以认知特征 ftcf_t^c 和带噪动作 (ati,at+1i,,at+Ni)(a_t^i, a_{t+1}^i, \cdots, a_{t+N}^i) (以及将 ii 用正弦位置编码加入特征)作为 DiT 的输入,ii 是去噪步骤,然后预测得到最终的动作 (at,at+1,,at+N)(a_t, a_{t+1}, \cdots, a_{t+N})

预测未来动作 NN 设置为一个较小的值 N=15N = 15

损失函数为

LMSE=EϵN(0,1),iϵ^iϵ2L_{MSE} = {\mathbb E}_{\epsilon \sim N(0, 1), i} || \hat \epsilon_i - \epsilon ||_2

Adaptive Action Ensemble

在推理过程中,直接根据 oto_t 执行多个时间步的动作,或者只执行当前事件步的动作都会导致动作不平滑。

提出了一种 AAE,考虑了待聚合动作之间的相似性,从而避免了来自不同模式的动作的不合理聚合,令 atota_t | o_t 表示基于当前观测 oto_t 的动作预测,{atotK,,atot1}\{a_t | o_{t-K}, \cdots, a_t | o_{t-1} \} 表示基于历史观测 {otK,,ot1}\{ o_{t-K}, \cdots, o_{t-1} \} 的观测,将 tt 的执行动作定义为

a^t=k=0Kwkadaatotk\hat a_t = \sum_{k=0}^{K} w_{k}^{ada} \cdot a_t | o_{t-k}

其中 wkadaw_{k}^{ada} 赋予与当前预测 {atot}\{a_t|o_t\} 更相似的历史预测更大权重

wkada=exp(α<atot,atotk>)w_k^{ada} = \exp(\alpha \left<a_t|o_t, a_t|o_{t-k}\right>)