Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics

2024年03月03日
  • 简介
    大型语言模型在一般语言理解任务中取得了显著的成功。但是,作为一种以下一个标记预测为目标的生成方法,与其前辈(如BERT架构)不同,这些模型的语义演化并没有得到充分探索。本文具体研究了一种流行的LLM,即Llama2的自下而上的词汇语义演化,通过在每一层结束时探测其隐藏状态,使用上下文化的词汇识别任务进行。我们的实验表明,较低层次的表示编码了词汇语义,而具有较弱语义归纳能力的较高层次则负责预测。这与具有判别目标的模型(例如掩码语言建模)不同,后者的较高层次获得了更好的词汇语义。这一结论在提示策略中对最后一些无意义符号(如标点符号)的隐藏状态的性能单调递增进一步得到支持。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在探讨大型语言模型(LLM)的语义演化问题,即不同层次的隐藏状态对词汇语义的编码能力有何不同。
  • 关键思路
    通过对Llama2模型的实验发现,低层次的隐藏状态编码了词汇语义,而高层次则负责预测。这与具有辨别目标的模型不同,后者更倾向于在高层次获得更好的词汇语义。
  • 其它亮点
    实验结果表明,Llama2模型的不同层次的隐藏状态对词汇语义的编码能力有所不同;论文探讨了LLM模型的语义演化问题,对深入理解LLM模型的内部机制具有重要意义。
  • 相关研究
    相关研究包括BERT-like架构和具有辨别目标的模型,如mask language modeling。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问