Chain-of-Affordance

o1 模型通过 CoT 展现了在解决复杂问题上的卓越能力。那么，机器人模型是否可以通过回顾先前的观察并提供任务特定的推理来指导动作预测，从而在多任务、复杂环境中实现更好的性能？

本文提出 Chain-of-Affordance (CoA)，一种通过引入顺序可供性推理来促进任务完成的全新方法。具体来说，提示机器人具有以下 4 种可供性：

给定数据集 $D = \{(\tau_i, g_i)\}$ ， $\tau_i$ 是演示， $g_i \in \cal G$ 是自然语言任务描述。定义 $z \in \cal Z$ 是基于自然语言的可供性推理：

$z = \{z_{obj}, z_{grasp}, z_{spat}, z_{move}\} \in \cal Z$

目标是学习一个中间语言输出 $z: \cal O \times G \to Z$ ，也就是把观测和自然语言任务描述转化为自然语言形式的可供性推理。

最终生成的动作 $a \sim p(a | \tau, g, z)$ 。

物体可供性使机器人能够确定需要交互的物体以及其位置，要求机器人通过自然语言识别物体的名称，并使用边界框格式预测其在图像中的位置。

抓取可供性涵盖了物体的可能功能或操作方式。这种可供性超越了视觉特性，将观察直接与动作联系起来。本文使用一组二维点来表示物体的抓取点。

这种可供性包括识别物体可以放置的空闲空间，或物体移动的空间。

运动可供性定义了机器人在任务中可以遵循的轨迹。

在训练和推理阶段，只有一部分可供性会根据机器人和场景状态被使用。具体而言，模型首先预测物体可供性和抓取可供性，告诉模型需要操作什么以及如何操作。在机器人抓取物体后，它会预测空间可供性。而运动可供性贯穿整个动作过程。通过实时更新可供性链，尽量减少计算开销。

使用流水线生成详细且多样化的可供性注释，以减少了对人工标注的需求。

流水线从 GPT-4o [35] 开始，它生成场景的详细描述并从语言指令中识别相关实体。利用这些实体，结合 Grounding DINOv2 [29] 和 SAM [22, 37] 生成场景中每个识别物体的边界框。

对于空间可供性，集成了 RoboPoint [47]，一个能够直接预测图像中空间可供性的最先进模型。对于捕获运动轨迹，使用 CoTracker [18, 19]，一个先进的基于 Transformer 的跟踪模型。