Psychometric Predictive Power of Large Language Models

2023年11月13日
  • 简介
    语言模型的下一个词概率已经被证明可以成功地模拟人类的阅读行为。在此基础上,我们发现有趣的是,经过指令调整的大型语言模型(LLMs)在预测人类阅读行为的心理测量预测能力(PPP)方面比具有相同困惑度的基础LLMs表现更差。换句话说,指令调整可以帮助LLMs提供人类偏好的响应,但并不总是使它们从计算心理语言学的角度看起来更像人类。此外,我们探讨了使用LLMs模拟人类阅读行为的提示方法,结果显示反映特定语言假设的提示可以使LLMs表现出更好的PPP,但仍然比基础LLMs差。这表明,最近的指令调整和提示并没有比基础LLMs直接概率测量提供更好的认知建模估计。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图探讨instruction-tuned large language models(LLMs)在模拟人类阅读行为方面的表现,以及探索使用prompting方法来提高LLMs的预测能力。
  • 关键思路
    研究表明,相比于拥有相同困惑度的基础LLMs,instruction tuning并不能使LLMs在计算心理语言学角度上更类似于人类阅读行为。使用反映特定语言假设的提示可以提高LLMs的心理测量预测能力,但仍不如基础LLMs。
  • 其它亮点
    实验使用了两个数据集,分别是Gutenberg语料库和CoLA数据集。研究结果表明,instruction tuning并不能使LLMs更类似于人类阅读行为。使用反映特定语言假设的提示可以提高LLMs的心理测量预测能力,但仍不如基础LLMs。研究发现,LLMs的预测能力与其困惑度没有直接联系。
  • 相关研究
    最近的相关研究包括《GPT-3 Is Not a Mindreader: Estimating Mental Representations from Behavior》、《The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问