现有模仿学习需要大量人类示范,价值高昂、需要有泛化能力、避免危险行为。
如何让模仿学习算法,只通过很少的示范,可以学到一个鲁棒可泛化的技能是一个有挑战的问题。
提出了一种新颖的视觉模仿学习方法,称为 3D Diffusion Policy (DP3)。DP3 结合了 3D 视觉表示的强大能力和扩散模型的生成特性,能够以较少的示范数据实现高效、稳健且具有泛化能力的机器人学习。
DP3 将稀疏采样的 point clouds 通过一个直接的 MLP 映射到紧凑的 3D 表达。
给定一个很小的包含复杂 robot 路径的专家示范,想要学习一个 将视觉观测 映射到行动 。
DP3 包括两个部分,Perception 和 Decision。
3DP 只关注单个视角相机,3DP 用稀疏点云作为 3D 表示,将 深度图转化为点云,不使用颜色通道。利用最远点采样 FPS [42] 裁剪点云,减少随机性。然后用 3 层 MLP 把点云编码为紧凑的 3D 表示(小型编码器优于 PointNeXt [46] 等大型预训练编码器)。
用条件去噪扩散模型迭代,将视觉特征 ,位姿 ,将随机高斯噪声去为动作 。从 开始迭代 次得到无噪声动作 :
目标为