Any2Point

现有的 2D 到 3D 方法可以分为两类：

数据模态转换：将 3D 点云投影到 2D 图像中，以适配预训练的 2D 模型。然而，这种模态转换过程不可避免地导致 3D 数据的空间信息丢失。
跨模态知识蒸馏：通过从 2D 或 VLM 向新的 3D 模型转移预训练知识。然而，这些方法需要在训练期间同时前向传播 2D 和 3D 模型，并高度依赖大规模的 2D-3D 配对数据，导致计算成本和数据工程的负担。

本文提出 Any2Point，一种统一的 Any-to-3D 框架，能够通过参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）将任意 1D（语言）或 2D（图像/音频）的大型模型迁移到 3D 领域。

具体来说，给定一个任意模态的预训练 Transformer，我们首先引入一种 3D-to-any（1D 或 2D）虚拟投影，在输入的 3D 点与其虚拟投影的 1D 或 2D 之间建立位置映射。然后，对于每个 Transformer 块，我们插入一个 Any-to-3D 引导适配模块，用于参数高效的微调。

Tokenization in 3D Space

为了避免信息退化，直接在 3D 空间中对输入点云进行 token 化，以适配后续的 1D/2D Transformer。

具体来说，采用一个轻量化的 3D 小型网络（Point-PN 的变体 Zhang
et al. [2023c], Zhu et al. [2024]），其 token 化过程包括 FPS、 $k$ -NN 和 Linear。最终得到 $N$ 个 3D token $\{T_i\}_{i=1}^{N}$ ，坐标是 $\{p_i^{3D}\}_{i=1}^{N}$ 。

3D-to-Any Virtual Projection

对于 2D Transformer，将每个 $p_i^{3D}$ 虚拟投影到 $M$ 个视图中，得到相应的 2D 坐标 $p_{ij}^{2D}$ ，然后根据预训练 Transformer 中的原始 2D 位置编码，为每个 3D token 分配 $M$ 个不同的 2D 位置编码，记为 $\{\text{PE}^{2D}(p_{ij})^{2D}\}_{j=1}^{M}$ 。

类似地，对于 1D Transformer，选择 $M$ 条穿过点云中心的线段，并均匀分布旋转角度，然后得到 1D 位置编码，记为 $\{\text{PE}^{1D}(p_{ij})^{1D}\}_{j=1}^{M}$ 。

将 1D/2D 平均作为整体位置指示器，并与 3D token 结合。

$T_i^{\text{in}} = T_i + \frac{1}{M} \sum_{j=1}^M \text{PE}^{1D/2D}(p_{ij}^{1D/2D})$

Any-to-3D Guided Adapter

尽管 3D token 的位置编码已与源模型对齐，但完全冻结的权重仍然难以学习优秀的 3D 表征。为此，在每个 Transformer 块中引入一个可学习的 Any-to-3D 引导适配器。适配器插入在 FFN 之后，进一步结合 1D/2D 的先验知识，实现参数高效的微调。

首先根据 1D/2D 的位置先验将 3D token 分组到不同的局部邻域中，然后对每个 1D/2D 局部邻域中的 3D token 应用自注意力层，最后通过池化和传播操作，将局部聚合的特征传播到同一邻域内的每个点。

设第 $i$ 组特征为 $\{F_{ij}\}_{j=1}^{M}$ ，现在，额外引入一个独立于这 $M$ 个 1D/2D 引导局部聚合的 3D 特征变换分支，通过 3D 空间中的局部分组、平均池化和传播，将经过 adapter 之前的 3D token 转换为一个 feature baseline $B_i$ ，通过 cosine similarity 加权聚合。

$T_i^{\text{out}} = \frac{1}{M} \sum_{j=1}^M \text{Sim}(B_i, F_{ij})$