提出了 Act3D,一种面向多任务 6 DoF 机器人操作的 language-conditioned Transformer,它通过自适应三维空间计算预测连续分辨率的三维动作图。
Act3D 将场景表示为一个连续的三维特征域,通过感知深度将来自一个或多个视图的二维基础模型特征提升到三维,计算 scene-level 的物理三维特征云。它通过递归的粗到细三维点采样和特征化,学习任意空间分辨率的三维特征域。在每次迭代中,模型在整个工作空间中采样三维点,并通过相对空间交叉注意力 [15] 对这些点进行特征化,再进行评分来预测三维末端执行器位置,然后回归末端执行器的 6 DoF action。
在推理时,Act3D 可以通过在自由空间中采样比训练时更多的三维点,在计算成本和更高的空间精度及任务性能之间进行权衡。
在 74 个 RLBench 任务上,Act3D 明显优秀于之前的多视角 2D 策略。
与之前的工作 [36, 1, 2, 3] 类似,并不在每个时间步预测末端执行器的位姿,而是提取一组关键位姿(keyposes),比如,(1) 末端执行器的状态发生变化(例如抓取或释放物体),或 (2) 速度接近于零(通常发生在进入预抓取位姿或任务新阶段时)。
视觉编码器将多视角 RGB-D 图像映射为多尺度的三维场景特征云。使用一个大规模预训练的二维特征提取器,后接一个特征金字塔网络(Feature Pyramid Network, FPN) [37]。
语言编码器使用一个大规模预训练的语言编码器对指令进行特征化。
使用 CLIP 的 ResNet50 [28] 视觉编码器和语言编码器,以利用其通用的视觉-语言特征空间来解释指令并进行参照性指向。预训练视觉和语言编码器在 Act3D 的训练过程中是冻结的,不进行微调。
核心思想是通过递归的粗到细三维点采样与特征化,学习任意空间分辨率的三维自由空间感知表示,从而估计高分辨率的三维动作图。
三维候选点(ghost points)通过相对交叉注意力 [15] 与从输入图像视图中提升的物理三维场景特征云进行特征化和评分。也就是,首先在整个工作空间中进行粗采样,然后在上一轮注意力聚焦的虚拟点附近进行精细采样。
交叉注意力使用相对三维位置信息,并通过旋转位置嵌入(rotary positional embeddings) [15] 实现。三维点的绝对位置没有用于特征化,注意力仅依赖于两个特征的相对位置。