3D Diffusion Policy

现有模仿学习需要大量人类示范,价值高昂、需要有泛化能力、避免危险行为。

如何让模仿学习算法,只通过很少的示范,可以学到一个鲁棒可泛化的技能是一个有挑战的问题。

提出了一种新颖的视觉模仿学习方法,称为 3D Diffusion Policy (DP3)。DP3 结合了 3D 视觉表示的强大能力和扩散模型的生成特性,能够以较少的示范数据实现高效、稳健且具有泛化能力的机器人学习。

DP3 将稀疏采样的 point clouds 通过一个直接的 MLP 映射到紧凑的 3D 表达。


给定一个很小的包含复杂 robot 路径的专家示范,想要学习一个 π:OA\pi : \cal O \mapsto A 将视觉观测 oo 映射到行动 aa

DP3 包括两个部分,Perception 和 Decision。

Perception

3DP 只关注单个视角相机,3DP 用稀疏点云作为 3D 表示,将 84×8484 \times 84 深度图转化为点云,不使用颜色通道。利用最远点采样 FPS [42] 裁剪点云,减少随机性。然后用 3 层 MLP 把点云编码为紧凑的 3D 表示(小型编码器优于 PointNeXt [46] 等大型预训练编码器)。

Decision

用条件去噪扩散模型迭代,将视觉特征 vv,位姿 qq,将随机高斯噪声去为动作 aa。从 aKa_K 开始迭代 KK 次得到无噪声动作 a0a_0

ak1=αk(akγkϵθ(ak,k,c,q))+σkN(0,I)a_{k-1} = \alpha_k(a_k - \gamma_k \epsilon_\theta(a_k, k, c, q)) + \sigma_k N(0, I)

目标为

L=MSE(ϵk,ϵθ(αˉka0+βˉkϵk,k,v,q))L = MSE(\epsilon^k, \epsilon_\theta (\bar \alpha_k a^0 + \bar \beta_k \epsilon^k, k, v, q ))