DexVLA

实现“全能型”机器人基础模型的愿景面临两个关键瓶颈:数据稀缺和架构不平衡,VLM 部分依然与具身部分脱节。

提出插件式扩散专家 DexVLA

同时,提出利用 VLA 模型的内在推理能力直接指导机器人动作。通过带有子步骤推理注释的演示数据训练模型,例如将“折叠衬衫”分解为“抚平皱纹”、“对齐袖子”和“固定折叠”,从而使模型能够学习解耦的动作表示。

DexVLA 在多个任务中显著优于如 OpenVLA、Octo 和 Diffusion Policy 等模型,尤其是在复杂任务(如折叠衣物)中表现突出。


Model Architecture

DexVLA 模型主要基于一个 Transformer 语言模型主干,用图像编码器将机器人的图像观察投影到与语言 token 相同的嵌入空间中,对于多摄像头视角,这些视觉 token 会被拼接。

VLM 组件生成两个输出:reasoning-token 和 action-token。Action-token 会经过一个包含两层带 LayerNorm 的 Linear 投影层,reasoning-token 会经过 FiLM ResNet 植入 Policy。

动作专家采用了 Scale Diffusion Policy (ScaleDP) [63],这是一个基于 Transformer 架构的 Diffusion Policy 变体,参数量可达到 10 亿。为了让 ScaleDP 能够在多种机器人配置上进行 cross-embodiment 预训练,还设计了一个多头输出结构。

整体训练损失定义为扩散损失 LdiffL_{\rm diff} 和下一步 token 预测损失 LntpL_{\rm ntp} 的线性组合。

Embodied Curriculum Learning

相较于端到端学习降低了 60% 的数据需求量。

在阶段 1 训练中,使用完整的数据集。阶段 2 训练仅使用相同具身形态的数据。后期训练仅选择性地在某些任务上执行。

Stage 1: Cross-Embodiment Pre-training

为了有效地预训练动作专家,将其与 VLM 组件暂时解耦。

在视觉编码方面,使用 ViT 架构以便与后续阶段对齐,而语言嵌入提取则使用 DistilBERT [39],然后通过 FiLM 层集成到模型中。

关键的一点:在预训练扩散专家时,需要将长时间任务(例如清理桌子、折叠衣物)分解为子任务。这些任务通常超过 2 分钟,仅通过单一语言指令难以有效学习。因此,需要在长时间任务中注释子步骤指令,子步骤注释通常每 5 秒提供一次。

扩散专家的参数量显著小于 VLA 模型(10 亿 vs. 30 亿),训练速度更快,提速 5 倍。

Stage 2: Embodied-Specific Alignment

联合训练 VLM 模型、投影层和扩散专家,同时冻结 VLM 的视觉编码器。能够有效地将 VLM 的高层视觉-语言理解与目标机器人的具体运动控制空间对齐。

Stage 3: Task-Specific Adaptation

模型会针对特定领域数据进行微调。

在阶段 2 和阶段 3 中都使用了带有子步骤注释的语言数据。然而,与直接将这些子步骤推理作为指令输入不同,本文使用它们用作中间语言输出,迫使模型学习并生成这些子步骤语言描述。

与其他 VLA 模型(如 π0π_0 [5])相比,这种方法不依赖 high-level 策略模型(如 SayCan [1])来识别任务状态并提供下一步指令。