CogACT
为了解决从 VLM 直接改造得到的 VLA 效果不尽如人意的问题,本文提出一种从 VLM 衍生的新型 VLA 模型架构 CogACT,将“认知”(Cognition)和“动作”(Action)能力解耦,包含一个专门的基于 Diffusion Transformer (DiT) 的动作模块。这个动作模块以认知模型的输出为条件,进行动作信号建模。
基于 DiT 的序列建模显著优于单步动作预测。更重要的是,动作模块在 DiT 上有良好扩展性:在 7B 参数的 VLM 基础上增加几亿参数(相对较小的增量)即可带来显著的性能提升。
同时提出了一种自适应动作集成(Adaptive Action Ensemble, AAE)算法,用于以自适应方式融合过去的动作预测。
在 Open X-Embodiment (OXE) 数据集 [48] 上效果很好,超过已有方法 Octo [62],OpenVLA [30],还展现了对新机器人和任务的快速适应能力。
模型通过语言、视觉预测接下来的动作序列
π:(l,ot)→(at,at+1,⋯,at+N)
将 π 拆分为视觉模块(vision module)、语言模块(language module)以及一个专门的动作模块(action module)。
Vision module
由 Transformer 模型 DINOv2 [49] 和 SigLIP [74] 组成,将 ot 输入这两个模型,生成特征 ftDINO 和 ftSig 然后拼接通过 Linear 得到长度 NV=256 的 V={v1,v2,⋯,vNV}。
Language module
使用 LLAMA-2 模型 [64] 作为主干,得到语言 token T 之后和视觉 token V 和额外的可学习的 cognition token c 拼接,通过 casual attention 得到 ftc 作为后续动作模块的条件输入,用于推导目标动作。
Diffusion Action Module
动作模块以认知特征 ftc 和带噪动作 (ati,at+1i,⋯,at+Ni) (以及将 i 用正弦位置编码加入特征)作为 DiT 的输入,i 是去噪步骤,然后预测得到最终的动作 (at,at+1,⋯,at+N)。
预测未来动作 N 设置为一个较小的值 N=15。
损失函数为
LMSE=Eϵ∼N(0,1),i∣∣ϵ^i−ϵ∣∣2
Adaptive Action Ensemble
在推理过程中,直接根据 ot 执行多个时间步的动作,或者只执行当前事件步的动作都会导致动作不平滑。
提出了一种 AAE,考虑了待聚合动作之间的相似性,从而避免了来自不同模式的动作的不合理聚合,令 at∣ot 表示基于当前观测 ot 的动作预测,{at∣ot−K,⋯,at∣ot−1} 表示基于历史观测 {ot−K,⋯,ot−1} 的观测,将 t 的执行动作定义为
a^t=k=0∑Kwkada⋅at∣ot−k
其中 wkada 赋予与当前预测 {at∣ot} 更相似的历史预测更大权重
wkada=exp(α⟨at∣ot,at∣ot−k⟩)