3D robot policy 通过感知到的深度信息,展现出比 2D policy 更好的跨摄像头视角泛化能力。
本工作提出 3D Diffuser Actor 统一了这两篇工作,在 RLBench 和 CALVIN 达到了 SOTA。
与 3D diffusion policy [22] 相比,对于场景变化更加鲁棒,有更好的泛化能力。
3D Diffuser Actor 训练模仿 {(ot,at)} 的轨迹,附带任务语言指令 l。ot 为视觉观测,at 为 t 时刻 robot 的决策。每个动作是一个执行器动作,用 (atloc∈R3,atrot∈R6,atopen∈{0,1}) 表示。用 τt=(at:t+Tloc,at:t+Trot) 代表 t 开始 T 时段的位置和旋转轨迹。模型在每个时间 t 预测轨迹 τt 和二元状态 at:t+Topen。
模型通过向样本 τ0 添加噪声,非自回归预测轨迹。第 i 步扩散可以写作 τi=αˉiτ0+1−αˉiϵ。
3D Diffuser Actor 通过一个 3D relative transformer ϵ^=ϵθ(τti;i,ot,l,ct) 学习预测噪声成分 ϵ^。在每一个时间 t 和扩散步骤 i,把视觉观测 ot,本体感觉 ct 和噪声轨迹预测 τti 转变为 3D tokens,每个 3D token 用 latent embedding 和 3D 位置表示。
模型把所有 3D tokens 通过 relative 3D attentions 融合,然后再用普通 attention 和自然语言指令 l 融合。3D attention 在查询 q 和键值 k 之间的权重为 eq,k∝xqTM(pq−pk)xk,其中 x 为特征,p 为 3D 坐标,M 是一个只取决于 q,k 的相对位置的矩阵 [62, 63, 17, 21]。目标函数为