Any2Point

现有的 2D 到 3D 方法可以分为两类:

本文提出 Any2Point,一种统一的 Any-to-3D 框架,能够通过参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)将任意 1D(语言)或 2D(图像/音频)的大型模型迁移到 3D 领域。

具体来说,给定一个任意模态的预训练 Transformer,我们首先引入一种 3D-to-any(1D 或 2D)虚拟投影,在输入的 3D 点与其虚拟投影的 1D 或 2D 之间建立位置映射。然后,对于每个 Transformer 块,我们插入一个 Any-to-3D 引导适配模块,用于参数高效的微调。


Tokenization in 3D Space

为了避免信息退化,直接在 3D 空间中对输入点云进行 token 化,以适配后续的 1D/2D Transformer。

具体来说,采用一个轻量化的 3D 小型网络(Point-PN 的变体 Zhang
et al. [2023c], Zhu et al. [2024]),其 token 化过程包括 FPS、kk-NN 和 Linear。最终得到 NN 个 3D token {Ti}i=1N\{T_i\}_{i=1}^{N},坐标是 {pi3D}i=1N\{p_i^{3D}\}_{i=1}^{N}

3D-to-Any Virtual Projection

对于 2D Transformer,将每个 pi3Dp_i^{3D} 虚拟投影到 MM 个视图中,得到相应的 2D 坐标 pij2Dp_{ij}^{2D},然后根据预训练 Transformer 中的原始 2D 位置编码,为每个 3D token 分配 MM 个不同的 2D 位置编码,记为 {PE2D(pij)2D}j=1M\{\text{PE}^{2D}(p_{ij})^{2D}\}_{j=1}^{M}

类似地,对于 1D Transformer,选择 MM 条穿过点云中心的线段,并均匀分布旋转角度,然后得到 1D 位置编码,记为 {PE1D(pij)1D}j=1M\{\text{PE}^{1D}(p_{ij})^{1D}\}_{j=1}^{M}

将 1D/2D 平均作为整体位置指示器,并与 3D token 结合。

Tiin=Ti+1Mj=1MPE1D/2D(pij1D/2D)T_i^{\text{in}} = T_i + \frac{1}{M} \sum_{j=1}^M \text{PE}^{1D/2D}(p_{ij}^{1D/2D})

Any-to-3D Guided Adapter

尽管 3D token 的位置编码已与源模型对齐,但完全冻结的权重仍然难以学习优秀的 3D 表征。为此,在每个 Transformer 块中引入一个可学习的 Any-to-3D 引导适配器。适配器插入在 FFN 之后,进一步结合 1D/2D 的先验知识,实现参数高效的微调。

首先根据 1D/2D 的位置先验将 3D token 分组到不同的局部邻域中,然后对每个 1D/2D 局部邻域中的 3D token 应用自注意力层,最后通过池化和传播操作,将局部聚合的特征传播到同一邻域内的每个点。

设第 ii 组特征为 {Fij}j=1M\{F_{ij}\}_{j=1}^{M},现在,额外引入一个独立于这 MM 个 1D/2D 引导局部聚合的 3D 特征变换分支,通过 3D 空间中的局部分组、平均池化和传播,将经过 adapter 之前的 3D token 转换为一个 feature baseline BiB_i,通过 cosine similarity 加权聚合。

Tiout=1Mj=1MSim(Bi,Fij)T_i^{\text{out}} = \frac{1}{M} \sum_{j=1}^M \text{Sim}(B_i, F_{ij})