- 简介本文研究了强化学习(RL)等顺序决策算法在现实场景中不可避免地面临部分可观测环境的有效性。本文审查了一种流行的架构,即Transformer,在部分可观测马尔可夫决策过程(POMDP)中的有效性,并揭示了其理论限制。我们建立了正则语言,这些语言Transformer难以建模,可以归约为POMDP。这对于Transformer在学习POMDP特定归纳偏差方面构成了重大挑战,因为它们缺乏其他模型(如RNN)中发现的内在循环。本文对于Transformer作为RL序列模型的普遍信念提出了疑问,并建议引入逐点循环结构。深度线性循环单元(LRU)成为部分可观测RL的一个很好的替代品,实证结果突出了Transformer的次优性能和LRU的相当强大。
-
- 图表
- 解决问题论文旨在研究在部分可观测马尔可夫决策过程(POMDP)中使用Transformers的效果,并揭示其理论局限性。同时提出了使用逐点循环结构的Deep Linear Recurrent Unit(LRU)作为POMDP的替代方案。
- 关键思路论文揭示了Transformers在建模正则语言的能力不足,而正则语言可以归约为POMDP,这对于Transformers学习POMDP特定的归纳偏差构成了挑战。因此,论文提出了使用逐点循环结构的LRU作为POMDP的替代方案。
- 其它亮点论文通过实验证明了LRU相比于Transformers在POMDP上具有更好的性能。实验使用了哪些数据集和开源代码并没有提及。
- 在最近的相关研究中,还没有类似的研究被进行。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流