上篇文章我们介绍了基于Transformer和扩散模型(Diffussion Model)的序列建模(sequence modelling)方法在强化学习,特别是离线连续控制领域的应用。这其中Trajectory Transformer(TT)和Diffusser属于基于模型的规划型算法,它们展现出了非常高精度的轨迹预测已经很好的灵活性,但是先对来说决策延迟也比较高。尤其是TT将每个维度独立离散化作为序列中的符号,这使得整个序列变得非常长,而且序列生成的耗时会随着状态和动作的维度提升快速升高。

为了让轨迹生成模型能被达到实用级别的决策速度,我们在和Diffusser平行(有重叠但是应该稍晚)的时候开始了高效轨迹生成与决策的项目。我们首先想到的是用连续空间内的Transformer+Mixture of Gaussian而非离散分布来拟合整个轨迹分布。虽然不排除实现上的问题,但是这种思路下我们没能获得一个比较稳定的生成模型。

随后我们尝试了Variational Autoencoder(VAE),并且取得了一定的突破。不过VAE的重建(reconstruction)精度不是特别理想,使得下游的控制表现和TT相差比较大。在几轮迭代之后,我们最终选定了VQ-VAE作为轨迹生成的基础模型,最终得到了一个能高效采样和规划,并且在高维度控制任务上表现远超其它基于模型方法的新算法,我们称为Trajectory Autoencoding Planner(TAP)

项目主页:https://sites.google.com/view/latentplan

文章arxiv:https://arxiv.org/abs/2208.10291

开源代码:https://github.com/ZhengyaoJiang/latentplan