3D Diffuser Actor

Diffusion policy 是在 robot 和环境状态的条件下，学习 robot 的动作分布的扩散模型。

3D robot policy 通过感知到的深度信息，展现出比 2D policy 更好的跨摄像头视角泛化能力。

本工作提出 3D Diffuser Actor 统一了这两篇工作，在 RLBench 和 CALVIN 达到了 SOTA。

与 3D diffusion policy [22] 相比，对于场景变化更加鲁棒，有更好的泛化能力。

3D Diffuser Actor 训练模仿 $\{(o_t, a_t)\}$ 的轨迹，附带任务语言指令 $l$ 。 $o_t$ 为视觉观测， $a_t$ 为 $t$ 时刻 robot 的决策。每个动作是一个执行器动作，用 $(a_t^{loc} \in \R^3, a_t^{rot} \in \R^6, a_t^{open} \in \{0, 1\})$ 表示。用 $\tau_t = (a_{t : t+T}^{loc}, a_{t: t +T}^{rot})$ 代表 $t$ 开始 $T$ 时段的位置和旋转轨迹。模型在每个时间 $t$ 预测轨迹 $\tau_t$ 和二元状态 $a_{t:t+T}^{open}$ 。

模型通过向样本 $\tau_0$ 添加噪声，非自回归预测轨迹。第 $i$ 步扩散可以写作 $\tau_i = \sqrt{\bar \alpha^i} \tau^0 + \sqrt{1 - \bar \alpha ^i} \epsilon$ 。

3D Diffuser Actor 通过一个 3D relative transformer $\hat \epsilon = \epsilon_\theta(\tau_t^i; i, o_t, l, c_t)$ 学习预测噪声成分 $\hat \epsilon$ 。在每一个时间 $t$ 和扩散步骤 $i$ ，把视觉观测 $o_t$ ，本体感觉 $c_t$ 和噪声轨迹预测 $\tau_t^i$ 转变为 3D tokens，每个 3D token 用 latent embedding 和 3D 位置表示。

模型把所有 3D tokens 通过 relative 3D attentions 融合，然后再用普通 attention 和自然语言指令 $l$ 融合。3D attention 在查询 $q$ 和键值 $k$ 之间的权重为 $e_{q, k} ∝ x_q^TM(p_q - p_k)x_k$ ，其中 $x$ 为特征， $p$ 为 3D 坐标， $M$ 是一个只取决于 $q, k$ 的相对位置的矩阵 [62, 63, 17, 21]。目标函数为

$L_\theta = w_1 || \epsilon_\theta^{loc}(o, l, c, \tau^i, i) - \epsilon^{loc} || + w_2 || \epsilon_\theta^{rot}(o, l, c, \tau^i, i) - \epsilon^{rot} || + BCE(f_\theta^{open} (o, l, c, \tau^i, i), a_{1:T}^{open})$

$BCE$ 代表 Binary Cross Entropy。