- 简介人工智能的进展通常是通过新模型宣称在衡量模型能力的任务上表现更好来展示的。特别是在评估语言模型方面,这是具有挑战性的,因为对模型在任务上的评估方式进行微小的更改可能会导致所测量的性能出现巨大变化。由于没有共同的标准设置,因此不同的模型以不同的方式在相同的任务上进行评估,导致关于哪些模型表现最佳的声明无法被复制。我们提出了OLMES,这是一个完全记录、实用、开放的标准,用于可重复的LLM评估。在开发这个标准时,我们确定并审查了社区采用的评估实践中的不同因素,例如提示格式的细节、上下文示例的选择、概率归一化和任务制定。特别地,OLMES支持较小的基础模型与需要使用不自然的“填空”形式的多项选择题的较大模型之间的有意义的比较。OLMES包括经过深思熟虑的建议,这些建议是由现有文献的结果以及调查开放问题的新实验指导的。
- 图表
- 解决问题提出OLMES标准,解决语言模型评估中缺乏共同标准的问题,使得模型性能比较更为可靠和可重复。
- 关键思路OLMES标准提供了完全记录、实用、开放的语言模型评估标准,包括任务设置、提示格式、例子选择、概率归一化等方面,特别是支持小型基础模型和大型模型之间的比较。
- 其它亮点论文提出的OLMES标准可以帮助研究者更好地比较不同语言模型的性能,实验设计详细,使用了多个数据集进行验证,开源了相关代码。此外,论文还指出了当前语言模型评估中存在的问题和亟待解决的挑战。
- 近期的相关研究包括《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢