Equipping Transformer with Random-Access Reading for Long-Context Understanding

2024年05月21日
  • 简介
    长文本建模对于基于Transformer的大型语言模型(LLMs)来说是一个重大挑战,因为自注意力机制的二次复杂度和仅在短输入上进行预训练导致的长度外推问题。现有的方法通过文本分块、内核方法和结构化注意力等技术来解决计算复杂度的问题,并通过位置编码、持续预训练和数据工程来解决长度外推问题。这些方法通常需要$\textbf{顺序访问}$文档,必须从第一个标记读到最后一个标记。我们认为,对于目标导向的长文档阅读,这种顺序访问并不是必需的,一个训练有素的模型可以学会省略数百个不太相关的标记。受人类阅读行为和现有经验观察的启发,我们提出了$\textbf{随机访问}$,这是一种新的阅读策略,使Transformer能够高效处理长文档,而无需检查每个标记。预训练、微调和推理阶段的实验结果验证了我们方法的有效性。
  • 图表
  • 解决问题
    本论文试图解决transformer-based LLMs在处理长文本时的计算复杂度和长度外推问题。同时,提出了一种新的阅读策略:随机访问。
  • 关键思路
    论文提出了一种新的阅读策略,即随机访问,使得transformer-based LLMs可以高效地处理长文本而无需阅读每个标记。通过实验验证了该方法的有效性。
  • 其它亮点
    论文设计了实验来验证提出的随机访问方法的有效性,同时提供了开源代码。此外,该方法受到人类阅读行为的启发,具有较强的可解释性。
  • 相关研究
    在这个领域中,目前已经有一些相关的研究。例如,text chunking、kernel approach、structured attention等方法都试图解决计算复杂度的问题;而positional encoding、continued pretraining、data engineering等方法则试图解决长度外推的问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论