Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function

简介

大型语言模型（LLMs）令人印象深刻的地方也是评估它们难度的所在：它们使用的多样性。为了评估这些模型，我们必须理解它们将被用于什么目的。我们考虑一种情况，即这些部署决策由人类做出，特别是人们对LLM表现良好的信念。我们将这种信念建模为人类概括函数的结果：人们根据LLM正确或错误的情况推断出它可能在哪些其他方面成功。我们收集了一组19K个例子，展示了人类如何在MMLU和BIG-Bench基准测试的79个任务中进行概括。我们展示了人类概括函数可以使用NLP方法预测：人们有一致的结构化概括方式。然后我们评估LLM与人类概括函数的一致性。我们的结果表明，特别是在错误成本高的情况下，更有能力的模型（例如GPT-4）可能在人们选择使用它们的实例上表现更差，因为它们与人类概括函数不一致。
图表
解决问题

研究人员试图评估大型语言模型（LLMs）与人类泛化函数的一致性，以确定LLMs在人类选择使用它们的任务中的表现。
关键思路

通过收集人类在79项任务中的19K个例子，研究人员发现人类有一致的结构化方式进行泛化，并使用NLP方法预测人类泛化函数。结果显示，更强大的模型（例如GPT-4）可能会在人们选择使用它们的实例上表现更差，因为它们与人类泛化函数不一致。
其它亮点

值得关注的亮点包括使用NLP方法预测人类泛化函数，以及研究结果表明更强大的模型不一定在人类选择使用它们的任务中表现更好。
相关研究

相关研究包括MMLU和BIG-Bench基准测试，以及其他研究人员对LLMs性能和泛化能力的评估。

Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function

评论