- 简介当前通过静态基准测试来评估大型语言模型(LLMs)的范式存在显著局限性,例如易受数据污染的影响,以及缺乏适应LLMs不断发展的能力。因此,迫切需要能够适应和生成具有可控复杂性的评估数据的评估方法。在这项工作中,我们介绍了通过自适应推理图演化(DARG)对LLMs进行动态评估的方法,以动态扩展当前基准测试,并具有可控的复杂性和多样性。具体而言,我们首先提取当前基准测试数据点的推理图,然后扰动推理图以生成新的测试数据。这些新生成的测试样本可以具有不同的复杂程度,同时保持与原始基准测试类似的语言多样性。我们进一步使用代码增强的LLM来确保新生成数据的标签正确性。我们将我们的DARG框架应用于四个领域的不同推理任务,使用15个最先进的LLMs。实验结果表明,几乎所有的LLMs在复杂度增加时都会出现性能下降,而某些LLMs则表现出显著下降。此外,我们发现当通过DARG生成的具有更高复杂度的数据来评估LLMs时,LLMs表现出更多的偏见。这些观察结果为动态和自适应评估LLMs提供了有用的见解。代码可在https://github.com/SALT-NLP/DARG上获得。
- 图表
- 解决问题本文试图解决静态基准测试在评估大型语言模型(LLMs)中的局限性,提出了一种动态评估方法DARG。
- 关键思路DARG通过自适应推理图演变动态地扩展当前基准测试,以生成具有受控复杂度和多样性的评估数据。
- 其它亮点本文使用15个最先进的LLMs在四个领域的不同推理任务上应用DARG框架,发现随着复杂度的增加,几乎所有LLMs的性能都会下降,某些LLMs的性能下降显著。此外,使用DARG生成的数据会使LLMs表现出更多的偏见。代码已经开源。
- 最近的相关研究包括:GPT-3,Turing-NLG,ELECTRA等。
沙发等你来抢
去评论
评论
沙发等你来抢