提出了 RVT-2,一种多任务三维操作模型,其训练速度比前代 RVT 快 6 倍,推理速度快 2 倍。在 RLBench [24] 基准测试中,RVT-2 的成功率从 65% 提升至 82%。
架构改进:
系统级优化:
RVT 使用围绕机器人的固定视图预测夹爪姿态。然而,当感兴趣的物体非常小且夹爪姿态需要非常精确时(例如插销插入任务),这些固定视图可能不足。
因此,RVT-2 采用了多阶段设计。在第一阶段(粗阶段),它使用固定视图预测感兴趣区域。然后,RVT-2 对感兴趣区域进行放大并在其周围重新渲染图像。使用 倍放大因子,这些放大的图像被用于更精确的夹爪姿态预测。
RVT-2 移除了特征上采样,直接从 token 分辨率的特征预测形状为 的热力图。具体来说,它使用了 [46] 提出的凸上采样层。凸上采样层使用粗网格中特征的学习凸组合在更高分辨率上进行预测。
RVT 和 PerAct 使用全局视觉特征预测末端执行器的旋转。当存在多个有效的末端执行器位置且旋转取决于位置时,这可能会出现问题。例如,在堆叠积木的任务中,场景中可能有两个相似的积木,但它们的方向不同。在这种情况下,选择任意一个积木都是有效的步骤。然而,由于积木的方向不同,末端执行器的旋转将取决于所选的位置。
为了解决这一问题,RVT-2 使用从特征图中末端执行器位置处提取的局部特征进行旋转预测。
在 CUDA 中实现了一个自定义的基于投影的点云渲染器,通过以下三个步骤渲染点云:
这一自定义渲染器相比起 PyTorch3D 显著加速了训练和推理过程。