Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs

简介

尽管大型语言模型（LLMs）在理解文本和生成类人文本方面表现出非凡的能力，但它们在这样做时可能会表现出从训练数据中获取的偏见。具体而言，LLMs可能会容易受到人类决策中的一种普遍认知陷阱，即代表性启发式的影响。这是心理学中的一个概念，指的是根据事件与已知原型或典型示例的相似程度来判断其发生的可能性，而不是考虑更广泛的事实或统计证据。本研究调查了代表性启发式对LLM推理的影响。我们创建了一个名为REHEAT（代表性启发式人工智能测试）的数据集，其中包含一系列问题，涵盖了六种常见类型的代表性启发式。实验表明，应用于REHEAT的四个LLMs都表现出代表性启发式偏见。我们进一步确定，模型的推理步骤通常基于刻板印象而不是问题的描述，这是不正确的。有趣的是，当在提示中添加提示以提醒模型使用其知识时，性能会有所提高。这表明了代表性启发式与传统偏见的独特性。即使LLMs拥有正确的知识，也可能在认知陷阱中失败。这凸显了未来研究关注模型推理和决策中的代表性启发式以及开发解决方案的重要性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究人工智能模型在推理中可能出现的代表性启发式偏见。这是否是一个新问题？
关键思路

通过创建一个包含六种常见代表性启发式的数据集，测试四个大型语言模型在推理中是否存在代表性启发式偏见。发现这些模型中的四个都存在该偏见。同时，研究人员发现给模型提供提示可以改善其性能。
其它亮点

实验结果表明，大型语言模型在推理中容易出现代表性启发式偏见，这可能是因为模型更倾向于使用原型而非问题描述进行推理。同时，研究人员发现提供提示可以改善模型的性能，这表明代表性启发式与传统偏见不同，需要更深入的研究和解决方案。
相关研究

与该论文相关的研究包括《Language Models are Few-Shot Learners》、《The GPT-2 Failsafe: Controlling Large Language Models with Imperfect Human Feedback》等。

Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs

提问交流

提问交流