- 简介大语言模型(LLMs)通常通过基准数据集来进行评估。但仅凭模型对一组精选问题的回答,就能推断其能力,这种做法的依据又何在呢?本文首先提出了一个形式化的框架来探讨这个问题。关键在于我们注意到,目前用来测试大语言模型的基准——比如大学先修课程(AP)考试——同时也是用于测试人类的。然而,这带来了一个重要的推论:只有当大语言模型在概念理解上的错误方式与人类的误解相似时,这些基准才是有效的测试手段。否则,模型在基准测试中的成功仅仅表明了一种“波将金式理解”(potemkin understanding):即一种表面上看似理解的假象,其实其答案与人类对概念的理解方式根本无法调和。为了量化这种“波将金式理解”的存在,我们提出了两种方法:一种是使用在三个领域中专门设计的基准测试,另一种是采用一种通用程序,用以估计这类现象的最低出现频率。我们发现,“波将金式理解”在各种模型、任务和领域中普遍存在。我们还发现,这些失败不仅反映了错误的理解,更揭示了模型在概念表征上的深层内在不一致性。
- 图表
- 解决问题该论文试图解决的问题是:当前基于基准数据集评估大语言模型(LLMs)能力的合理性问题。具体而言,作者质疑是否可以通过模型在AP考试等人类测试上的表现来推断其真正理解了概念,还是仅仅表现出一种“假象理解”(potemkin understanding)。这个问题此前未被系统性地提出和量化研究。
- 关键思路论文的关键思路是引入一个形式化框架,指出LLM与人类使用相同测试基准的前提是:LLM必须以类似人类的方式误解概念。否则,其高分表现可能只是表面模仿,而非真实理解。作者提出了两种量化potemkin理解的方法,分别通过特定领域基准和通用程序进行检测。
- 其它亮点{提出并定义了“potemkin理解”的概念,并设计实验进行验证。,构建了一个专门的跨领域基准测试,涵盖三个不同学科内容。,开发了一种通用方法,用于估计potemkin理解的下限。,发现potemkin失败现象普遍存在,且反映模型内部概念表示的不一致性。,实验结果表明,模型不仅会犯错,而且其错误方式与人类显著不同,暗示其理解机制存在根本差异。,本研究为未来评估LLM提供了新的视角和工具,值得继续深入探索模型认知结构及其类人性。}
- {"Wei et al., Chain-of-thought prompting elicits reasoning in large language models (NeurIPS, 2022)","Hendrycks et al., Measuring massive multitask language understanding (ICLR, 2021)","Ravichander et al., Decomposing the internal structure of language models via concept probe tasks (EMNLP, 2023)","Mitchell et al., Conceptual abstraction in language models: A preliminary investigation (CoRR, 2022)","Liu et al., Evaluating consistency and generalization in language model understanding (ACL, 2023)"}
沙发等你来抢
去评论
评论
沙发等你来抢