3D-MVP

自遮掩自动编码器(Masked Autoencoders, MAE)[19] 通过重建输入图像中随机遮掩的部分,鼓励模型学习高层语义特征。

基于 MAE 在第一视角数据集上的视觉预训练可以提升机器人任务的泛化能力 [40, 29],但这是 2D 的。

提出了 3D-MVP,一种用于机器人操作的三维多视图预训练方法。该方法基于 Robotic View Transformer (RVT) [15],RVT 以场景的点云作为输入,并通过一组固定的正交“虚拟”RGB-D 图像构建场景的三维表示。

之所以使用 RVT 而不是 PerAct [38] 和 Act3D [14] 等,是因为其他方法使用体素 (voxels) 或点云作为 Transformer 模型的输入,而 RVT 使用正交的 RGB-D 图像。这种基于视图的表示使 RVT 成为 MAE 预训练的合适候选。

在 RLBench、COLOSSEUM 上进行了评估,实验结果表明,与从零开始训练或使用二维 MAE 预训练相比,使用 3D-MVP 预训练的 RVT 编码器在性能上有显著提升、更加鲁棒。


Background on RVT

RVT 以工作空间的点云作为输入,然后使用五个“虚拟”摄像头(顶部、左侧、右侧、前方和后方)从正交位置渲染该点云,生成虚拟视图。每个虚拟图像包含 10 个通道:RGB(3 个通道)、深度(1 个通道)、世界坐标系中的 3D 点坐标(3 个通道)以及摄像头传感器坐标系中的 3D 点坐标(3 个通道)。

这些虚拟图像随后被分割为 NN 个 patch embeddings,展平为 5N5N 个 token,输入到一个多视图 Transformer 中,用于学习通过虚拟图像 I1,,I5I_1, \cdots, I_5,摄像头位置 p1,,p5p_1, \cdots, p_5 和语言指令 LL 预测 6-DoF 的末端执行器 action 的 fθf_\theta

3D Multi-View Pretraining

首先将多视图 Transformer fθf_\theta 分为三个部分:输入渲染器 RR、编码器网络 EE 和动作解码器网络 DD

RR 将输入图像和摄像头姿态映射为五个虚拟图像,通过构建点云并从五个视图渲染它们。

EE 将虚拟图像映射到一个潜在嵌入 R5N×H\R^{5N \times H}DDzz 映射到动作空间。EE 和解码器 DD 都是多视图 Transformer。

Pretraining encoder

从 Objaverse 数据集中提取点云,随机遮掩每个视图 {I1,I2,,I5}\{I_1, I_2, \cdots, I_5\} 中的一部分视觉 token,得到 {I1,I2,,I5}\{I'_1, I'_2, \cdots, I'_5\},用 EE 提取出 zz,然后用 DMAED_{MAE} 重建 {I~1,I~2,,I~5}\{\tilde I_1, \tilde I_2, \cdots, \tilde I_5\},过像素级重建损失进行端到端训练

Lrecon=15WHi=15p=1WH[Ii](p)[I~i](p)22L_{\text{recon}} = \frac{1}{5WH} \sum_{i=1}^5 \sum_{p=1}^{W \cdot H} \|[I_i]_{(p)} - [\tilde{I}_i]_{(p)}\|_2^2