最先进的扩散式 VLA 模型(如 π0π_0π0 模型)尽管在复杂任务中表现优异,但其训练过程需要大量计算资源(数千 GPU 小时)。
提出了 FAST,一种高效的 action tokenizer,在压缩效率和动作生成精确性之间实现了良好的平衡。
FAST 通过离散余弦变换(DCT)和字节对编码(BPE)对动作块进行压缩,在多个机器人领域中显著优于现有的动作标记方法。
本文进一步扩展了 FAST,提出了 FAST+,一种通用动作标记器,适用于多种机器人形态和任务,训练出 π0π_0π0-FAST 效率显著提高。