现有的 2D 到 3D 方法可以分为两类:
数据模态转换:将 3D 点云投影到 2D 图像中,以适配预训练的 2D 模型。然而,这种模态转换过程不可避免地导致 3D 数据的空间信息丢失。
跨模态知识蒸馏:通过从 2D 或 VLM 向新的 3D 模型转移预训练知识。然而,这些方法需要在训练期间同时前向传播 2D 和 3D 模型,并高度依赖大规模的 2D-3D 配对数据,导致计算成本和数据工程的负担。
本文提出 Any2Point,一种统一的 Any-to-3D 框架,能够通过参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)将任意 1D(语言)或 2D(图像/音频)的大型模型迁移到 3D 领域。
具体来说,给定一个任意模态的预训练 Transformer,我们首先引入一种 3D-to-any(1D 或 2D)虚拟投影,在输入的 3D 点与其虚拟投影的 1D 或 2D 之间建立位置映射。然后,对于每个 Transformer 块,我们插入一个 Any-to-3D 引导适配模块,用于参数高效的微调。
为了避免信息退化,直接在 3D 空间中对输入点云进行 token 化,以适配后续的 1D/2D Transformer。
具体来说,采用一个轻量化的 3D 小型网络(Point-PN 的变体 Zhang
et al. [2023c], Zhu et al. [2024]),其 token 化过程包括 FPS、-NN 和 Linear。最终得到 个 3D token ,坐标是 。
对于 2D Transformer,将每个 虚拟投影到 个视图中,得到相应的 2D 坐标 ,然后根据预训练 Transformer 中的原始 2D 位置编码,为每个 3D token 分配 个不同的 2D 位置编码,记为 。
类似地,对于 1D Transformer,选择 条穿过点云中心的线段,并均匀分布旋转角度,然后得到 1D 位置编码,记为 。
将 1D/2D 平均作为整体位置指示器,并与 3D token 结合。
尽管 3D token 的位置编码已与源模型对齐,但完全冻结的权重仍然难以学习优秀的 3D 表征。为此,在每个 Transformer 块中引入一个可学习的 Any-to-3D 引导适配器。适配器插入在 FFN 之后,进一步结合 1D/2D 的先验知识,实现参数高效的微调。
首先根据 1D/2D 的位置先验将 3D token 分组到不同的局部邻域中,然后对每个 1D/2D 局部邻域中的 3D token 应用自注意力层,最后通过池化和传播操作,将局部聚合的特征传播到同一邻域内的每个点。
设第 组特征为 ,现在,额外引入一个独立于这 个 1D/2D 引导局部聚合的 3D 特征变换分支,通过 3D 空间中的局部分组、平均池化和传播,将经过 adapter 之前的 3D token 转换为一个 feature baseline ,通过 cosine similarity 加权聚合。