之前的 vision-language-action (VLA) model 如 RT-2 (Brohan et al., 2023) 和 PALM-E (Driess et al.,2023a) 以 2D 图像作为输入,这忽视了 3D 世界的动态特性。因为人类基于对环境的三维理解进行推理、计划和行动 (Palmer, 1975; Pylyshyn, 2003; Marr, 2010)
一些研究 (Huang et al., 2023b; Hong et al., 2024) 开发了能够在三维环境中进行计划和行动的具身基础模型。然而,这些模型主要通过从感知到动作的直接映射来学习,缺乏对世界动态的更广泛理解以及动作与世界动态之间关系的建模。
构建人类 3D World Model 的挑战来自于多模态生成能力的缺失和 3D 数据不足。
提出 3D-VLA,通过生成式世界模型提升感知、推理、决策能力。3D-VLA 建立于一个 3D-based LLM (Hong et al., 2023),通过训练很多具身扩散模型并对齐到 LLM 上来预测目标图片和点云。
从现有机器人数据集中提取大量与三维相关的信息,整理了一个大规模的三维具身指令数据集。
收集的数据集规模不足以从零开始训练一个多模态 LLM,因此采用了 3D-LLM 的方法,通过多视角特征生成三维场景特征,从而将视觉特征整合到预训练的视觉语言模型(VLM)中,而无需额外适配。
不加载 3D-LLM 的预训练模型,而是使用 BLIP2-FlanT5 XL(Li et al., 2023b)作为预训练模型。在训练过程中,解冻了输入和输出标记的嵌入层,以及 Q-Former 的权重。
为了增强模型对三维场景的理解能力并促进其与环境的交互,引入了一组新的 Interaction Tokens,包括 <obj>
,<scene>
,<loc...>
等。
当前的扩散模型(如 Runway 和 DreamLLM)并未针对具身任务进行优化,以及如何将不同模态扩散模型整合为基础模型中仍然是一个挑战。
首先训练了 RGBD-to-RGBD 和点云到点云的扩散模型。利用整理的 3D-语言视频数据集,训练了一个条件扩散模型,该模型根据指令编辑初始状态模态以生成相应的最终状态模态。
拥有了在不同模态中的 DM 之后,引入了一个对齐阶段来将这些 DM 整合到 LLM 中。监督 LLM 生成机器人执行的指令。
应用了一个基于 Transformer 的投影器,将 DM 解码器特征和 LLM 的嵌入映射到扩散模型的空间中。为了提高训练效率并避免灾难性遗忘,使用 LoRA(Hu et al., 2021)对不同的扩散模型进行了微调。同时,仅训练新引入的特殊标记嵌入、对应的嵌入输出线性层以及整个投影器。最小化 LLM 和扩散模型的去噪损失。