- 简介大型语言模型在一般语言理解任务中取得了显著的成功。但是,作为一种以下一个标记预测为目标的生成方法,与其前辈(如BERT架构)不同,这些模型的语义演化并没有得到充分探索。本文具体研究了一种流行的LLM,即Llama2的自下而上的词汇语义演化,通过在每一层结束时探测其隐藏状态,使用上下文化的词汇识别任务进行。我们的实验表明,较低层次的表示编码了词汇语义,而具有较弱语义归纳能力的较高层次则负责预测。这与具有判别目标的模型(例如掩码语言建模)不同,后者的较高层次获得了更好的词汇语义。这一结论在提示策略中对最后一些无意义符号(如标点符号)的隐藏状态的性能单调递增进一步得到支持。
-
- 图表
- 解决问题本文旨在探讨大型语言模型(LLM)的语义演化问题,即不同层次的隐藏状态对词汇语义的编码能力有何不同。
- 关键思路通过对Llama2模型的实验发现,低层次的隐藏状态编码了词汇语义,而高层次则负责预测。这与具有辨别目标的模型不同,后者更倾向于在高层次获得更好的词汇语义。
- 其它亮点实验结果表明,Llama2模型的不同层次的隐藏状态对词汇语义的编码能力有所不同;论文探讨了LLM模型的语义演化问题,对深入理解LLM模型的内部机制具有重要意义。
- 相关研究包括BERT-like架构和具有辨别目标的模型,如mask language modeling。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流