SUGAR

提出了 SUGAR，一个新型的三维预训练框架，能够通过三维点云学习物体的语义、几何和可操作性属性。

为了联合训练多种属性，设计了一个通用的基于 Transformer 的模型，包括一个点云编码器和一个基于 prompt 的解码器。

通过点云掩码建模和跨模态知识蒸馏任务分别训练几何和语义理解的表示。为了更好地理解复杂场景中的物体及其空间关系，在预训练中应用了三维实例分割和指代表达定位任务。此外，提出了抓取姿态合成任务，以学习复杂场景中物体的可操作性。

采用课程学习的方法，逐步在单物体和多物体场景上训练 SUGAR。

Network Architecture

假设点云 $X = \{x_i\}_{i=1}^N$ ，其中 $x_i \in \mathbb{R}^6$ 包含3D坐标和RGB颜色， $N$ 是点的数量；提示序列为 $Y = \{y_i\}_{i=1}^K$ 。模型由一个点云编码器 $E(X)$ 和一个基于提示的解码器 $D(E(X), Y)$ 组成，两者均使用 Transformer 块 [75]。

Point cloud encoder

给定点云 $X$ ，首先使用 FPS 选择 $N_e$ 个关键点，并为每个关键点分组 $S_e$ 个最近点，形成局部点云。将局部点云归一化，以关键点为中心，使用共享的 PointNet [57] 对每个局部点云进行编码，生成一个 token 嵌入 $x_i^0 \in \R^d$ ，其中 $d$ 是特征的维度。局部点云的位置被设置为其关键点的 3D 坐标，并通过 FFN 生成位置嵌入 $x_i^p \in \mathbb{R}^d$ 。使用一个包含 $L$ 层的标准 Transformer 对点云 token 进行编码，第 $l$ 层的计算公式为：

$\{x_i^l\}_{i=1}^{N_e} = \text{FFN}(\text{SA}(\{x_i^{l-1} + x_i^p\}_{i=1}^{N_e})),$

其中 $\text{SA}$ 是自注意力操作。为简化表示，省略了残差连接和层归一化的细节。

Prompt-based decoder

给定任务特定的提示prompt $Y$ ，使用一个线性层将其投影为 token 嵌入 $\{y_i^0\}_{i=1}^K$ ，其中 $y_i^0 \in \mathbb{R}^d$ 。解码器包含与编码器相同数量的自注意力（SA）和交叉注意力（CA）层，用于逐层查询编码的点嵌入并更新 prompt token：

$\{\hat{y}_i^l\}_{i=1}^K = \text{FFN}(\text{SA}(\{y_i^{l-1}\}_{i=1}^K)),$

$\{y_i^l\}_{i=1}^K = \text{FFN}(\text{CA}(\{\hat{y}_i^l\}_{i=1}^K, \{x_i^l\}_{i=1}^{N_e})).$

输出嵌入 $\{y_i^L\}_{i=1}^K$ 可用于以下描述的具体任务。

Pre-training Tasks

Masked Point Modeling (MPM)

掩码建模是一种通用的自监督任务，广泛应用于文本 [13]、图像 [27]、视频 [72] 和 3D 点云 [53, 59, 86] 等领域。

随机掩盖 $60\%$ 的局部点云 token [59]，仅将未掩盖的 token 输入点云编码器 $E$ 。然后，通过一个轻量级的点云解码器（4 层 Transformer）重建被掩盖的 token。解码器接收未掩盖的点嵌入 $\{x_i^L\}$ 和一个特殊的 [mask] 嵌入，该嵌入被添加到每个被掩盖 token 的对应位置嵌入中。输出嵌入用于预测局部点云中每个点的 3D 坐标。

此外，还包括每个点的颜色预测。假设预测的局部点云为 $\hat{X}_j \in \mathbb{R}^{S_e \times 6}$ ，真实点云为 $X_j \in \mathbb{R}^{S_e \times 6}$ ，重建损失（ $\ell_2$ Chamfer 距离 [17]）：

$L_{\text{mpm}} = \frac{1}{N_e S_e} \sum_{j=1}^{N_e} \left( \sum_{(\hat{x}, x) \in A_j} \|\hat{x} - x\|_2^2 + \sum_{(x, \hat{x}) \in B_j} \|x - \hat{x}\|_2^2 \right)$

其中 $A_j$ 和 $B_j$ 分别表示 Chamfer 匹配对，也就是对每个 $\hat x / x$ ，与其 3D 距离最近的 $x / \hat x$ 。

假设有 $R^I$ 张图像和 $R^T$ 条文本描述与点云 $X$ 对齐（例如通过不同的相机将 $X$ 从 3D 投影到 2D 并为 2D 图像标注文字）。

使用预训练的图像和文本模型提取图像和文本特征，分别表示为 $\{f_r^I\}_{r=1}^{R^I}$ 和 $\{f_r^T\}_{r=1}^{R^T}$ 。目标是从 $X$ 中提取与对齐的图像或文本特征接近的点云特征。为此，在解码器 $D$ 中使用两个提示 token [img] 和 [txt]，并通过线性层将两个输出嵌入投影到与预训练图像或文本特征相同的空间，分别表示为 $\hat{f}^I$ 和 $\hat{f}^T$ 。

使用平滑的 $\ell_1$ 损失 $L_{\text{cml}}$ 来最小化 $\hat{f}^I$ 与每个 $f_r^I$ 之间、 $\hat{f}^T$ 与每个 $f_r^T$ 之间的距离，以实现跨模态知识蒸馏。

Grasping Pose Synthesis (GPS)

为简化问题，假设每个点 $x_i$ 至多存在一个最优抓取姿态，其中 $g_i^v \in \{0, 1\}$ 表示该点是否具有有效的抓取姿态， $g_i^m \in \mathbb{R}^{4 \times 4}$ 是该点的最优抓取姿态（如果 $g_i^v = 1$ ）。

首先使用三次插值对点嵌入 $\{x_i^L\}_{i=1}^{N_e}$ 进行上采样，然后通过线性层预测每个点的二元分类 $\hat{g}_i^v \in \mathbb{R}$ 。对于有效点，预测最优抓取姿态对点的相对位置 $\hat{g}_i^p \in \mathbb{R}^3$ 和 3D 旋转的 6D 表示 $\hat{g}_i^r \in \mathbb{R}^6$ [91]，并通过 Gram-Schmidt 过程形成抓取姿态 $\hat{g}_i^m \in \mathbb{R}^{4 \times 4}$ ：
$L_{\text{gps}} = \frac{1}{N} \sum_{i=1}^N \text{BCE}(\hat{g}_i^v, g_i^v) + g_i^v \|\hat{g}_i^m - g_i^m\|_2^2.$

Instance Segmentation (INS)

使用一组对象 prompt （[obj1], [obj2], ..., [objK]）作为解码器 $D_\theta$ 的提示 prompt ，并获得输出嵌入 $\{y_i^L\}_{i=1}^K$ 。对于每个对象prompt $y_i$ ，计算其与上采样点嵌入的相似性 $s(y_i, x_j) = y_i^L \cdot x_j^L$ ，从而生成实例分割掩码 $m_i \in \mathbb{R}^N$ 。此外，使用线性层预测对象得分，并结合跨模态学习任务对对象级别的特征进行训练。

Referring Expression Grounding (REG)

根据自然语言描述在复杂场景中分割目标物体。

我们使用一个提示 prompt [ref] 和由预训练语言模型编码的文本 prompt 序列输入解码器 $D$ ，并使用 [ref] 的输出嵌入预测目标物体的掩码。训练时结合 BCE 损失和 DICE 损失。