当前的 VLA 模型通常将任务推理和动作生成分离开来。例如,许多方法依赖 LLM 进行高层任务规划,而动作生成则由单独的策略模型完成。这种分离导致了推理和动作生成之间的耦合性较差。
同时,现有模型在执行多步骤任务时,往往需要重复生成推理结果,不能复用之前的推理,导致计算效率低下。
许多 VLA 模型在面对新的摄像头视角或环境变化时表现不佳,缺乏对动态场景的适应能力。
本文提出了 DiVLA,一种结合推理和动作生成的统一框架。
设计了一个推理复用模块,使模型能够在多步骤任务中高效复用先前的推理结果。
提出了一种新的标记化方法,使模型能够适应不同的摄像头视角和动态环境。
Next token prediction 与扩散模型相结合,构建了一个统一的框架,使模型能够同时进行任务推理和动作生成。
在多个模拟和真实世界任务中验证了 DiVLA 的性能,包括多任务学习、零样本物体抓取(zero-shot bin-picking)和双臂机器人操作等。实验结果表明,DiVLA 在性能上显著优于 Diffusion Policy 和 OpenVLA 等。