实现“全能型”机器人基础模型的愿景面临两个关键瓶颈:数据稀缺和架构不平衡,VLM 部分依然与具身部分脱节。
提出插件式扩散专家 DexVLA:
十亿参数 Diffusion Expert:采用多头架构,每个头对应一种特定的机器人形态,从而实现对多样化形态的高效学习
具身 Curriculum 学习:设计了一种三阶段的训练策略,逐步学习更复杂的任务
跨形态预训练,学习与机器人形态无关的低级运动技能。在此阶段,仅对扩散专家进行预训练,不涉及 VLM
形态特定对齐,将视觉-语言表示与特定机器人的物理约束对齐
适应特定任务,让机器人掌握复杂任务,例如完成长时间任务并泛化到新物体
同时,提出利用 VLA 模型的内在推理能力直接指导机器人动作。通过带有子步骤推理注释的演示数据训练模型,例如将“折叠衬衫”分解为“抚平皱纹”、“对齐袖子”和“固定折叠”,从而使模型能够学习解耦的动作表示。
DexVLA 在多个任务中显著优于如 OpenVLA、Octo 和 Diffusion Policy 等模型,尤其是在复杂任务(如折叠衣物)中表现突出。
DexVLA 模型主要基于一个 Transformer 语言模型主干,用图像编码器将机器人的图像观察投影到与语言 token 相同的嵌入空间中,对于多摄像头视角,这些视觉 token 会被拼接。
VLM 组件生成两个输出:reasoning-token 和 action-token。Action-token 会经过一个包含两层带 LayerNorm 的 Linear 投影层,reasoning-token 会经过 FiLM ResNet 植入 Policy。
动作专家采用了 Scale Diffusion Policy (ScaleDP) [63],这是一个基于 Transformer 架构的 Diffusion Policy 变体,参数量可达到 10 亿。为了让 ScaleDP 能够在多种机器人配置上进行 cross-embodiment 预训练,还设计了一个多头输出结构。
整体训练损失定义为扩散损失 和下一步 token 预测损失 的线性组合。
相较于端到端学习降低了 60% 的数据需求量。
在阶段 1 训练中,使用完整的数据集。阶段 2 训练仅使用相同具身形态的数据。后期训练仅选择性地在某些任务上执行。
为了有效地预训练动作专家,将其与 VLM 组件暂时解耦。
在视觉编码方面,使用 ViT 架构以便与后续阶段对齐,而语言嵌入提取则使用 DistilBERT [39],然后通过 FiLM 层集成到模型中。
关键的一点:在预训练扩散专家时,需要将长时间任务(例如清理桌子、折叠衣物)分解为子任务。这些任务通常超过 2 分钟,仅通过单一语言指令难以有效学习。因此,需要在长时间任务中注释子步骤指令,子步骤注释通常每 5 秒提供一次。
扩散专家的参数量显著小于 VLA 模型(10 亿 vs. 30 亿),训练速度更快,提速 5 倍。
联合训练 VLM 模型、投影层和扩散专家,同时冻结 VLM 的视觉编码器。能够有效地将 VLM 的高层视觉-语言理解与目标机器人的具体运动控制空间对齐。
模型会针对特定领域数据进行微调。
在阶段 2 和阶段 3 中都使用了带有子步骤注释的语言数据。然而,与直接将这些子步骤推理作为指令输入不同,本文使用它们用作中间语言输出,迫使模型学习并生成这些子步骤语言描述。
与其他 VLA 模型(如 [5])相比,这种方法不依赖 high-level 策略模型(如 SayCan [1])来识别任务状态并提供下一步指令。