On Limitations of the Transformer Architecture

2024年02月13日
  • 简介
    这篇文章探讨了大型语言模型(LLMs)产生幻觉的根本原因是什么。作者运用通信复杂度证明了Transformer层无法组合函数(例如,在家谱中识别一个人的祖父母),如果函数的域足够大,这种无能力已经在域相当小的情况下被实验证实。此外,作者还指出,对于足够大的实例,并假设计算复杂性领域中的某些被广泛接受的猜想是正确的,几个数学任务的核心(被认为对LLMs来说是困难的组合任务)也不太可能被Transformer解决。
  • 图表
  • 解决问题
    论文试图证明大型语言模型(LLMs)出现幻觉的根本原因是什么?
  • 关键思路
    通过通信复杂度证明Transformer层在函数组合方面的能力是有限的,无法处理足够大的函数域;同时,指出几个核心数学任务,这些任务被认为对于LLMs来说很难完成,但对于足够大的实例,Transformer也不可能解决这些任务。
  • 其它亮点
    论文使用通信复杂度证明Transformer的局限性,并提供了示例来支持这一结论;同时,指出了LLMs在处理数学任务时的困难,以及这些困难可能与计算复杂性领域中的某些假设有关。
  • 相关研究
    最近的相关研究集中在改进LLMs的性能和能力方面,如GPT-3等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论