Overthinking the Truth: Understanding how Language Models Process False Demonstrations

Danny Halawi, Jean-Stanislas Denain, Jacob Steinhardt
[UC Berkeley]

Overthinking的真相:理解语言模型如何处理虚假示例

  • 动机:研究语言模型在上下文中模仿不正确演示的原因,并探索解决这种错误模仿的方法。
  • 方法:通过提取中间模型层的预测结果来研究模型的“overthinking”现象,同时通过削减特定的注意力头部分析了错误的诱导头的作用。
  • 优势:揭示了模型在计算过程中出现错误模仿的现象,并通过削减特定的注意力头改进了模型性能。

通过分析语言模型中的中间计算过程,揭示了模型在执行过程中错误模仿的问题,并通过削减注意力头实现了性能改进。

https://arxiv.org/abs/2307.09476 


图片

图片