自遮掩自动编码器(Masked Autoencoders, MAE)[19] 通过重建输入图像中随机遮掩的部分,鼓励模型学习高层语义特征。
基于 MAE 在第一视角数据集上的视觉预训练可以提升机器人任务的泛化能力 [40, 29],但这是 2D 的。
提出了 3D-MVP,一种用于机器人操作的三维多视图预训练方法。该方法基于 Robotic View Transformer (RVT) [15],RVT 以场景的点云作为输入,并通过一组固定的正交“虚拟”RGB-D 图像构建场景的三维表示。
之所以使用 RVT 而不是 PerAct [38] 和 Act3D [14] 等,是因为其他方法使用体素 (voxels) 或点云作为 Transformer 模型的输入,而 RVT 使用正交的 RGB-D 图像。这种基于视图的表示使 RVT 成为 MAE 预训练的合适候选。
在 RLBench、COLOSSEUM 上进行了评估,实验结果表明,与从零开始训练或使用二维 MAE 预训练相比,使用 3D-MVP 预训练的 RVT 编码器在性能上有显著提升、更加鲁棒。
RVT 以工作空间的点云作为输入,然后使用五个“虚拟”摄像头(顶部、左侧、右侧、前方和后方)从正交位置渲染该点云,生成虚拟视图。每个虚拟图像包含 10 个通道:RGB(3 个通道)、深度(1 个通道)、世界坐标系中的 3D 点坐标(3 个通道)以及摄像头传感器坐标系中的 3D 点坐标(3 个通道)。
这些虚拟图像随后被分割为 个 patch embeddings,展平为 个 token,输入到一个多视图 Transformer 中,用于学习通过虚拟图像 ,摄像头位置 和语言指令 预测 6-DoF 的末端执行器 action 的 。
首先将多视图 Transformer 分为三个部分:输入渲染器 、编码器网络 和动作解码器网络 。
将输入图像和摄像头姿态映射为五个虚拟图像,通过构建点云并从五个视图渲染它们。
将虚拟图像映射到一个潜在嵌入 , 将 映射到动作空间。 和解码器 都是多视图 Transformer。
从 Objaverse 数据集中提取点云,随机遮掩每个视图 中的一部分视觉 token,得到 ,用 提取出 ,然后用 重建 ,过像素级重建损失进行端到端训练