DexVLA

实现“全能型”机器人基础模型的愿景面临两个关键瓶颈：数据稀缺和架构不平衡，VLM 部分依然与具身部分脱节。

提出插件式扩散专家 DexVLA：

十亿参数 Diffusion Expert：采用多头架构，每个头对应一种特定的机器人形态，从而实现对多样化形态的高效学习
具身 Curriculum 学习：设计了一种三阶段的训练策略，逐步学习更复杂的任务
1. 跨形态预训练，学习与机器人形态无关的低级运动技能。在此阶段，仅对扩散专家进行预训练，不涉及 VLM
2. 形态特定对齐，将视觉-语言表示与特定机器人的物理约束对齐
3. 适应特定任务，让机器人掌握复杂任务，例如完成长时间任务并泛化到新物体

同时，提出利用 VLA 模型的内在推理能力直接指导机器人动作。通过带有子步骤推理注释的演示数据训练模型，例如将“折叠衬衫”分解为“抚平皱纹”、“对齐袖子”和“固定折叠”，从而使模型能够学习解耦的动作表示。

DexVLA 在多个任务中显著优于如 OpenVLA、Octo 和 Diffusion Policy 等模型，尤其是在复杂任务（如折叠衣物）中表现突出。

Model Architecture

DexVLA 模型主要基于一个 Transformer 语言模型主干，用图像编码器将机器人的图像观察投影到与语言 token 相同的嵌入空间中，对于多摄像头视角，这些视觉 token 会被拼接。

VLM 组件生成两个输出：reasoning-token 和 action-token。Action-token 会经过一个包含两层带 LayerNorm 的 Linear 投影层，reasoning-token 会经过 FiLM ResNet 植入 Policy。

动作专家采用了 Scale Diffusion Policy (ScaleDP) [63]，这是一个基于 Transformer 架构的 Diffusion Policy 变体，参数量可达到 10 亿。为了让 ScaleDP 能够在多种机器人配置上进行 cross-embodiment 预训练，还设计了一个多头输出结构。

整体训练损失定义为扩散损失 $L_{\rm diff}$ 和下一步 token 预测损失 $L_{\rm ntp}$ 的线性组合。

Embodied Curriculum Learning

相较于端到端学习降低了 60% 的数据需求量。

在阶段 1 训练中，使用完整的数据集。阶段 2 训练仅使用相同具身形态的数据。后期训练仅选择性地在某些任务上执行。

Stage 1: Cross-Embodiment Pre-training

为了有效地预训练动作专家，将其与 VLM 组件暂时解耦。

在视觉编码方面，使用 ViT 架构以便与后续阶段对齐，而语言嵌入提取则使用 DistilBERT [39]，然后通过 FiLM 层集成到模型中。

关键的一点：在预训练扩散专家时，需要将长时间任务（例如清理桌子、折叠衣物）分解为子任务。这些任务通常超过 2 分钟，仅通过单一语言指令难以有效学习。因此，需要在长时间任务中注释子步骤指令，子步骤注释通常每 5 秒提供一次。

扩散专家的参数量显著小于 VLA 模型（10 亿 vs. 30 亿），训练速度更快，提速 5 倍。

Stage 2: Embodied-Specific Alignment

联合训练 VLM 模型、投影层和扩散专家，同时冻结 VLM 的视觉编码器。能够有效地将 VLM 的高层视觉-语言理解与目标机器人的具体运动控制空间对齐。

Stage 3: Task-Specific Adaptation

模型会针对特定领域数据进行微调。

在阶段 2 和阶段 3 中都使用了带有子步骤注释的语言数据。然而，与直接将这些子步骤推理作为指令输入不同，本文使用它们用作中间语言输出，迫使模型学习并生成这些子步骤语言描述。

与其他 VLA 模型（如 $π_0$ [5]）相比，这种方法不依赖 high-level 策略模型（如 SayCan [1]）来识别任务状态并提供下一步指令。