- 简介最近的研究提出了线性表征假说:即语言模型通过在激活空间中操纵概念(“特征”)的一维表征来执行计算。相反,我们探讨一些语言模型表征是否本质上是多维的。我们首先根据它们是否可以分解为独立的或不共同出现的低维特征,开发了对不可约多维特征的严格定义。在这些定义的推动下,我们设计了一种可扩展的方法,使用稀疏自编码器自动发现GPT-2和Mistral 7B中的多维特征。这些自动发现的特征包括引人注目的可解释性示例,例如表示星期几和月份的圆形特征。我们确定了使用这些确切的圆形来解决涉及星期几和月份的模算术计算问题的任务。最后,我们提供证据表明,这些圆形特征确实是这些任务中计算的基本单位,通过对Mistral 7B和Llama 3 8B进行干预实验,并通过将这些任务的隐藏状态分解为可解释的组件来发现更多的圆形表征。
- 图表
- 解决问题论文试图探索语言模型中是否存在固有的多维特征,并验证这些特征是否是计算的基本单位。
- 关键思路通过自动发现GPT-2和Mistral 7B中的多维特征,论文提出了一种基于稀疏自编码器的可扩展方法,证明了这些特征在某些任务中是解决问题的基本单位。
- 其它亮点论文提出了一种严格的多维特征定义,并使用自编码器自动发现了GPT-2和Mistral 7B中的多维特征,包括能够解决模运算问题的环形特征。研究者还进行了干预实验,证明这些环形特征确实是计算的基本单位。
- 最近的相关研究包括“线性表示假设”和其他探索语言模型内部结构的研究,例如“探索BERT的隐藏层”和“深入探索GPT-2的内部结构”。
沙发等你来抢
去评论
评论
沙发等你来抢