PolarNet

本文提出了 PolarNet，一种基于点云的语言引导机器人操作网络，基于 PointNext 架构 [17]，以高效编码点云输入。通过多模态 Transformer，在中间层将编码后的点云与语言指令融合，预测 7-DoF 的 action。

目标是学习一个视觉策略 $\pi(a_t | O_t)$ ，其中 $a_t$ 是动作， $O_t$ 是 $t$ 时间的观察空间，包括：

语言指令 $(x_1, \cdots, x_{N_x})$ ， $x_i$ 是 token 化的单词
$K$ 个摄像头的 RGB 图像 $\{I_{rgb}^{k} \in \R^{H\times W \times 3}\}_{k=1}^{K}$
对齐的深度图像 $\{I_{dep}^{k} \in \R^{H \times W}\}_{k=1}^{K}$

Point Cloud Inputs

将深度图像中的每个像素投影到 3D 世界坐标系中，每个像素的 RGB 颜色可以附加到对应的 3D 点上，为每个摄像头生成一个点云 $V_{t}^{k} \in \R^{H\times W \times 6}$ ，每个点由 XYZ 坐标和 RGB 颜色组成。

将它们合并为一个统一的点云。为了减少冗余，使用 Open3D [52] 对合并后的点云进行均匀下采样，每个体素保留一个点。同时定义了一个覆盖桌面上方工作空间的 3D 边界框，用于裁剪点云，仅保留物体和机器人手臂的点。最终得到的点云 $V_t$

实验证明，下面 4 种输入特征均有助于性能提升，其中颜色尤为重要：

XYZ 坐标
RGB 颜色
法向量：已被证明在避障任务中有效 [45]。
相对于操作桌面的高度

Model Architecture

采用 CLIP 模型 [8] 的语言编码器对语言指令进行标记化和编码。冻结 CLIP 的参数，并添加一个线性层以生成语言嵌入。

$\hat{X} = (\hat{x}_1, \cdots, \hat{x}_{N_x}) = W_x \text{CLIP}([x_1, \cdots, x_{N_x}])$

使用 PointNext 编码器 [17] 对点云 $V_t$ 进行编码，PointNext 编码器由 $L_e$ 个 Set Abstraction (SA) 模块组成，用于分层抽象点云特征。每个 SA 模块包含以下步骤

子采样层：用 FPS 采样 $N_v^l$ 个点
分组层：为每个采样点找到邻居点，即距离 $r^l$ 之内的点
MLP
Max Pooling

假设查询点 $i$ 在第 $l$ 层的坐标为 $p_i^l$ ，输入特征 $v_i^l$ ，则

$v_i^{l+1} = \text{MaxPool}_{j:(i, j) \in N} \{\text{MLP}([v_j^l; (p_j^l - p_i^l)/r^l])\}$

每个 SA 模块将点的数量减少一半，同时将特征维度增加一倍。我们将编码后的点云表示为 $V_t^{L_e}$ 。

用多层 Transformer 架构 [53] 将点云特征与语言嵌入融合。首先为点云特征添加位置编码和正弦位置嵌入。

$\hat{v}_i^0 = W_v v_i^{L_e} + W_p p_i^{L_e} + E_s(t)$

然后在每一层 Transformer 中，依次执行：

Self-Attention
点云到语言的 Cross-Attention
Feedforward Network

$\text{Attn}(Q, K, V) = \text{Softmax}\left(\frac{W_Q Q (W_K K)^T}{\sqrt{d}}\right) W_V V \\ \hat{V}_l' = \text{Attn}(\hat{V}_l, \hat{V}_l, \hat{V}_l), \quad \hat{V}_l'' = \text{Attn}(\hat{V}_l', \hat{X}, \hat{X}) \\ \hat{V}_{l+1} = \text{LayerNorm}(W_2 \text{GeLU}(W_1 \hat{V}_l''))$

对于位置预测，由于是连续值，直接回归可能导致训练困难且性能不佳 [54]，故使用 PointNext 生成点云上的热图 $H \in \R^{N_v \times 1}$ 和每个点的偏移量 $\R^{N_v \times 3}$ ，最终预测位置为：

$\hat{a}_t^{xyz} = \sum_{i=1}^{N_v} H_i (p_i + \Delta_i)$

对于旋转和开合状态，由于其离散性，直接通过以下公式预测：

$\hat{a}_t^q, \hat{a}_t^o = \text{MLP}([\text{MaxPool}(V_t^{L_e}); \text{MaxPool}(\hat{V}_t^L)])$

最终损失函数为：

$L = \frac{1}{|N T|} \sum_{\tau \in D} \left[\sum_{t=1}^T \text{MSE}(\hat{a}_t^{xyz}, a_t^{xyz}) + \text{MSE}(\hat{a}_t^q, a_t^q) + \text{BCE}(\hat{a}_t^o, a_t^o)\right]$