The Remarkable Robustness of LLMs: Stages of Inference?

Vedang Lad ,
Wes Gurnee ,
Max Tegmark
2024年06月27日
  • 简介
    我们展示并研究了大型语言模型通过删除和交换相邻层所表现出的显著鲁棒性。我们发现,删除和交换操作在不进行微调的情况下仍能保留原模型72-95\%的预测准确性,而具有更多层的模型表现出更强的鲁棒性。基于逐层干预和进一步实验的结果,我们假设在八个不同模型中存在四个普遍的推理阶段:去标记化、特征工程、预测集成和残差锐化。第一阶段整合了局部信息,将原始标记表示提升到更高级别的上下文表示。接下来是任务和实体特定特征的迭代细化。然后,模型的后半部分开始了一个相变阶段,其中由于专门的模型组件,隐藏表示与词汇空间更加对齐。最后,最后一层通过消除添加噪声的过时特征来锐化下一个标记分布的预测。
  • 图表
  • 解决问题
    论文试图探究大型语言模型的鲁棒性,即删除和交换相邻层的情况下,模型的预测准确性如何变化。
  • 关键思路
    论文通过删除和交换相邻层的方法,研究了8个不同模型的4个普遍推理阶段,提出了一种新的模型鲁棒性探究方法。
  • 其它亮点
    实验结果表明,删除和交换干预可以在不进行微调的情况下保留72-95%的原始模型预测准确性,并且具有更多层的模型表现出更强的鲁棒性。论文还提出了四个普遍的推理阶段:解标记化、特征工程、预测集成和残差锐化。
  • 相关研究
    近期的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论