- 简介也许不是这样。我们识别和分析了流行的大规模多任务语言理解(MMLU)基准测试中的错误。尽管MMLU被广泛采用,但我们的分析表明,存在许多地面真实错误,这些错误混淆了LLM的真实能力。例如,我们发现在病毒学子集中分析的问题中,有57%包含错误。为了解决这个问题,我们引入了一个全面的框架,使用新的错误分类法来识别数据集错误。然后,我们创建了MMLU-Redux,这是30个MMLU主题中的3,000个手动重新注释的问题的子集。使用MMLU-Redux,我们展示了与最初报告的模型性能指标存在显著差异。我们的结果强烈呼吁修订MMLU中存在错误的问题,以增强其作为基准测试的未来效用和可靠性。因此,我们开放了MMLU-Redux进行额外的注释。
- 图表
- 解决问题分析和修正MMLU基准测试中的错误问题,提高其未来的可靠性和实用性。
- 关键思路提出了一个全面的框架,使用新的错误分类法来识别数据集中的错误,并创建了一个经过手动重新注释的子集MMLU-Redux,以证明原始模型性能指标存在显著差异。
- 其它亮点作者发现MMLU基准测试中存在大量的错误问题,提出了一种新的错误分类法和一个经过手动重新注释的子集MMLU-Redux来解决这些问题。作者的实验结果表明,修正后的MMLU-Redux比原始数据集具有更高的准确性和可靠性。作者开放了MMLU-Redux以供进一步注释和研究。
- 最近的相关研究集中在自然语言处理和语言模型的领域,例如BERT、GPT等模型的改进和优化。
沙发等你来抢
去评论
评论
沙发等你来抢