RDT-1B

提出了 Robotics Diffusion Transformer (RDT),这是一个面向双臂操作的开创性扩散基础模型。RDT 基于扩散模型,能够有效表示多模态分布,并通过一个可扩展的 DiTs 主干网络(Xie et al., 2020)处理多模态输入的异质性,同时捕捉机器人数据的非线性和高频特性。

为了解决数据稀缺问题,进一步引入了一个物理可解释的统一动作空间(Physically Interpretable Unified Action Space),该空间能够统一各种机器人的动作表示,同时保留原始动作的物理意义,从而促进可迁移物理知识的学习。

在文章发表时最大的数据集 (Collaboration et al., 2023; Walke et al., 2023; Fang et al., 2023; Kumar et al., 2024) 上对 RDT 进行了预训练(包括 46 个数据集,超过 100 万条轨迹),并将其扩展到 12 亿参数。