- 简介大型语言模型的表现已经达到了超人类的广度和前所未有的深度。与此同时,语言模型大多是黑盒模型,其性能的基本机制是通过使用合成或机械化方案进行评估的。我们扩展了当前的机械化方案,将逻辑、记忆和语言的微妙之处(如潜在结构)纳入其中。所提出的框架称为LOLAMEME,我们提供了两个LOLAMEME的实例:LoLa和MeMe语言。然后,我们考虑了两种生成语言模型架构:基于Transformer的GPT-2和基于卷积的Hyena。我们提出了混合架构THEX,并使用LOLAMEME框架来比较三种架构。THEX在某些任务上优于GPT-2和Hyena。
- 图表
- 解决问题研究大型语言模型的黑盒特性,并提出一个名为LOLAMEME的框架来解释其性能
- 关键思路将逻辑、记忆和语言的微妙之处纳入到当前的机械化方案中,提出了两种语言:LoLa和MeMe,使用这个框架来比较三种生成语言模型架构
- 其它亮点提出了一个新的框架LOLAMEME,用于解释大型语言模型的性能;提出了两种新的语言LoLa和MeMe;提出了一个新的混合架构T HEX,用于比较三种生成语言模型架构;在一些任务上,T HEX的性能优于GPT-2和Hyena
- 最近在这个领域中,还有一些相关研究,如:The GPT-3 Language Model: A Deep Dive by Jay Alammar;The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks by Jonathan Frankle and Michael Carbin
沙发等你来抢
去评论
评论
沙发等你来抢