Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping

简介

尽管Transformer在各种应用场景中取得了巨大进展，但是这种架构在解决复杂决策任务方面仍然落后于传统的符号规划器。在这项工作中，我们演示了如何训练Transformer来解决复杂的规划任务，并提出了Searchformer，这是一个Transformer模型，可以在以前未见过的Sokoban难题中93.7%的时间内最优地解决问题，同时使用的搜索步骤比标准的$A^*$搜索少26.8%。Searchformer是一个编码器-解码器Transformer模型，经过训练可以预测$A^*$的搜索动态。然后，通过专家迭代进行微调，使其在执行比$A^*$搜索更少的搜索步骤的同时生成最优计划。在我们的训练方法中，$A^*$的搜索动态被表达为一个令牌序列，概述了符号规划过程中何时将任务状态添加和删除到搜索树中。在我们对迷宫导航的消融研究中，我们发现Searchformer在模型尺寸减小5-10倍、训练数据集减小10倍的情况下，显著优于直接预测最优计划的基准线。我们还演示了Searchformer如何扩展到更大更复杂的决策任务，如Sokoban，具有更高的解决任务百分比和缩短的搜索动态。
图表
解决问题

本文试图通过训练Transformer模型来解决复杂的决策问题，特别是在符号规划方面的应用，是否是一个新问题尚不确定。
关键思路

本文提出了Searchformer模型，该模型是一个编码-解码的Transformer模型，通过预测$A^*$搜索的搜索动态来解决复杂的规划问题，通过专家迭代的微调，可以使用比$A^*$搜索更少的搜索步骤生成最优计划。
其它亮点

本文的实验结果表明，Searchformer模型在迷宫导航方面显著优于直接预测最优计划的基线模型，且模型大小和训练数据集都更小。此外，Searchformer模型还可以扩展到更大和更复杂的决策问题，如Sokoban等。该论文提供了数据集和开源代码。
相关研究

最近的相关研究主要集中在使用Transformer模型解决决策问题方面，如PlaNet、Dreamer和MCTS-Transformer等。

Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping

评论