- 简介语言模型的下一个词概率已经被证明可以成功地模拟人类的阅读行为。在此基础上,我们发现有趣的是,经过指令调整的大型语言模型(LLMs)在预测人类阅读行为的心理测量预测能力(PPP)方面比具有相同困惑度的基础LLMs表现更差。换句话说,指令调整可以帮助LLMs提供人类偏好的响应,但并不总是使它们从计算心理语言学的角度看起来更像人类。此外,我们探讨了使用LLMs模拟人类阅读行为的提示方法,结果显示反映特定语言假设的提示可以使LLMs表现出更好的PPP,但仍然比基础LLMs差。这表明,最近的指令调整和提示并没有比基础LLMs直接概率测量提供更好的认知建模估计。
-
- 图表
- 解决问题论文试图探讨instruction-tuned large language models(LLMs)在模拟人类阅读行为方面的表现,以及探索使用prompting方法来提高LLMs的预测能力。
- 关键思路研究表明,相比于拥有相同困惑度的基础LLMs,instruction tuning并不能使LLMs在计算心理语言学角度上更类似于人类阅读行为。使用反映特定语言假设的提示可以提高LLMs的心理测量预测能力,但仍不如基础LLMs。
- 其它亮点实验使用了两个数据集,分别是Gutenberg语料库和CoLA数据集。研究结果表明,instruction tuning并不能使LLMs更类似于人类阅读行为。使用反映特定语言假设的提示可以提高LLMs的心理测量预测能力,但仍不如基础LLMs。研究发现,LLMs的预测能力与其困惑度没有直接联系。
- 最近的相关研究包括《GPT-3 Is Not a Mindreader: Estimating Mental Representations from Behavior》、《The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流