- 简介也许不是这样。我们识别和分析了流行的大规模多任务语言理解(Massive Multitask Language Understanding,MMLU)基准测试中的错误。尽管MMLU被广泛采用,但我们的分析显示出许多基本真相错误,这些错误掩盖了LLMs的真正能力。例如,我们发现在病毒学子集中分析的问题中,有57%包含错误。为了解决这个问题,我们引入了一个全面的框架,使用新的错误分类法来识别数据集错误。然后,我们创建了MMLU-Redux,它是30个MMLU主题中的3,000个手动重新注释的问题子集。使用MMLU-Redux,我们展示了与最初报告的模型性能指标存在显著差异的结果。我们的结果强烈主张修改MMLU中存在错误的问题,以增强其未来作为基准测试的效用和可靠性。因此,我们开放了MMLU-Redux以进行附加注释。https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux。
- 图表
- 解决问题分析MMLU数据集中存在的错误,提出新的数据集MMLU-Redux来改进MMLU的可靠性和实用性。
- 关键思路提出一个全面的框架来识别数据集中的错误,使用新的错误分类法,手动重新注释了3000个问题,展示了MMLU的性能指标存在的显著差异。
- 其它亮点论文发现MMLU数据集中存在大量错误,提出了MMLU-Redux数据集来改进MMLU的可靠性和实用性。实验使用了新的错误分类法来识别数据集中的错误,并手动重新注释了3000个问题。论文的结果表明原始的MMLU性能指标存在显著差异,需要修正数据集中的错误。MMLU-Redux数据集已经开源。
- 最近的相关研究主要集中在LLM领域,例如GPT-3等。
沙发等你来抢
去评论
评论
沙发等你来抢