Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

简介

专有语言模型（如GPT-4）通常被用于评估各种语言模型的质量。然而，透明度、可控性和经济性等问题强烈促使开发专门用于评估的开源语言模型。另一方面，现有的开源评估语言模型存在严重缺陷：1）它们发出的分数与人类分配的分数显著不同，2）它们缺乏灵活性，无法执行直接评估和成对排名这两种最常见的评估形式。此外，它们没有根据自定义评估标准进行评估的能力，而是专注于一般属性，如有用性和无害性。为了解决这些问题，我们介绍了比其前身更强大的评估语言模型Prometheus 2，它与人类和GPT-4的判断非常相似。此外，它能够处理用户定义的评估标准分组的直接评估和成对排名格式。在四个直接评估基准和四个成对排名基准上，Prometheus 2在所有测试的开源评估语言模型中与人类和专有语言模型评判之间的相关性和一致性得分最高。我们的模型、代码和数据都可以在https://github.com/prometheus-eval/prometheus-eval上公开获取。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

开发一种开源的评估语言模型（LM）的方法，以解决现有开源评估LM在透明度、可控性和可承受性方面存在的问题。
关键思路

提出了一种新的评估LM方法，名为Prometheus 2，能够准确反映人类和专有LM评分的判断，并且能够处理直接评估和成对排名格式，同时具有用户定义的评估标准。
其它亮点

Prometheus 2在四个直接评估基准和四个成对排名基准中得分最高，并且与人类和专有LM评判之间的相关性和一致性最高。模型、代码和数据都公开可用。
相关研究

最近的相关研究包括使用GPT-4等专有LM评估LM的方法，以及开源评估LM的其他方法，但这些方法存在透明度、可控性和可承受性方面的问题。

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

提问交流

提问交流