提出了 I2P-MAE,一种通过图像到点云知识迁移进行自监督 3D 点云预训练的 MAE 框架。
首先采用了一个非对称的编码器-解码器 Transformer 作为基本架构,该架构以随机掩码的点云为输入,并通过可见点重建被掩盖的点。通过高效的投影将点云转换为多视图深度图。这种方法无需离线长时渲染,并在很大程度上保留了从不同视角观察到的 3D 几何信息。在此基础上,利用现成的 2D 模型获取点云的多视图 2D 特征以及 2D 注意力图,并分别从两个方面指导预训练:
2D 引导的掩码策略:将多视图注意力图反投影到 3D 空间,形成一个空间注意力云
2D 语义重建:除了重建被掩盖的点云 token,还提出在 MAE 解码器之后同时重建可见点 token 的多视图 2D 特征。
I2P-MAE 显著加速了预训练的收敛速度。通过从由 CLIP [53] 预训练的 2D ViT [14] 中学习,I2P-MAE 在微调的情况下,在 ModelNet40 数据集上,通过 Linear SVM 达到了 93.4% 准确率,超过了完全微调的 Point-BERT [76] 和 Point-MAE [33]。进一步微调后,在 ScanObjectNN 最困难的分割上,I2P-MAE 达到了 90.11% 的分类准确率,比第二好的 Point-M2AE [78] 高出 3.68%。