LOLAMEME: Logic, Language, Memory, Mechanistic Framework

2024年05月31日
  • 简介
    大型语言模型的表现已经达到了超人类的广度和前所未有的深度。与此同时,语言模型大多是黑盒模型,其性能的基本机制是通过使用合成或机械化方案进行评估的。我们扩展了当前的机械化方案,将逻辑、记忆和语言的微妙之处(如潜在结构)纳入其中。所提出的框架称为LOLAMEME,我们提供了两个LOLAMEME的实例:LoLa和MeMe语言。然后,我们考虑了两种生成语言模型架构:基于Transformer的GPT-2和基于卷积的Hyena。我们提出了混合架构THEX,并使用LOLAMEME框架来比较三种架构。THEX在某些任务上优于GPT-2和Hyena。
  • 图表
  • 解决问题
    研究大型语言模型的黑盒特性,并提出一个名为LOLAMEME的框架来解释其性能
  • 关键思路
    将逻辑、记忆和语言的微妙之处纳入到当前的机械化方案中,提出了两种语言:LoLa和MeMe,使用这个框架来比较三种生成语言模型架构
  • 其它亮点
    提出了一个新的框架LOLAMEME,用于解释大型语言模型的性能;提出了两种新的语言LoLa和MeMe;提出了一个新的混合架构T HEX,用于比较三种生成语言模型架构;在一些任务上,T HEX的性能优于GPT-2和Hyena
  • 相关研究
    最近在这个领域中,还有一些相关研究,如:The GPT-3 Language Model: A Deep Dive by Jay Alammar;The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks by Jonathan Frankle and Michael Carbin
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论