Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics

简介

大型语言模型在一般语言理解任务中取得了显著的成功。但是，作为一种以下一个标记预测为目标的生成方法，与其前辈（如BERT架构）不同，这些模型的语义演化并没有得到充分探索。本文具体研究了一种流行的LLM，即Llama2的自下而上的词汇语义演化，通过在每一层结束时探测其隐藏状态，使用上下文化的词汇识别任务进行。我们的实验表明，较低层次的表示编码了词汇语义，而具有较弱语义归纳能力的较高层次则负责预测。这与具有判别目标的模型（例如掩码语言建模）不同，后者的较高层次获得了更好的词汇语义。这一结论在提示策略中对最后一些无意义符号（如标点符号）的隐藏状态的性能单调递增进一步得到支持。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在探讨大型语言模型（LLM）的语义演化问题，即不同层次的隐藏状态对词汇语义的编码能力有何不同。
关键思路

通过对Llama2模型的实验发现，低层次的隐藏状态编码了词汇语义，而高层次则负责预测。这与具有辨别目标的模型不同，后者更倾向于在高层次获得更好的词汇语义。
其它亮点

实验结果表明，Llama2模型的不同层次的隐藏状态对词汇语义的编码能力有所不同；论文探讨了LLM模型的语义演化问题，对深入理解LLM模型的内部机制具有重要意义。
相关研究

相关研究包括BERT-like架构和具有辨别目标的模型，如mask language modeling。

Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics

提问交流

提问交流