谷歌提出 RNN 版 Transformer，或为长文本建模的当前最优解

介绍一篇谷歌的最新工作，解决的是 Transformer 的长文本处理问题。在原生 Transformer 中，attention 的复杂度是输入序列长度的平方级别，因此限制了它处理长文本的能力。简单来说，本文提出的解决方案就是把 Transformer当做 RNN 中的循环单元来用。

和传统 RNN 的区别只在于：传统 RNN encoder 每个循环单元负责编码一个 token，而本文中每个循环单元负责编码一段长度为的文本片段，且每个循环单元都由构造相同的 Transformer Block 来实现。如此一来，每个片段在编码时，都能用类似 RNN 的方式，同时考虑之前文本中的信息了。