Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

简介

大型语言模型（LLMs）已经解锁了新的能力和应用；然而，评估其与人类偏好的一致性仍然存在重大挑战。为了解决这个问题，我们介绍了Chatbot Arena，这是一个基于人类偏好评估LLMs的开放平台。我们的方法采用了成对比较的方法，并通过众包利用来自不同用户群体的输入。该平台已经运营了几个月，收集了超过240K的投票。本文描述了该平台，分析了我们迄今收集的数据，并解释了我们正在使用的经过验证的统计方法，以实现高效准确的评估和排名模型。我们确认，众包问题足够多样化和有区分性，众包人类投票与专家评分者的投票一致。这些分析共同为Chatbot Arena的可信度奠定了坚实的基础。由于其独特的价值和开放性，Chatbot Arena已成为最受引用的LLM排行榜之一，被领先的LLM开发者和公司广泛引用。我们的演示可在\url{https://chat.lmsys.org}上公开使用。
图表
解决问题

Chatbot Arena旨在解决评估大型语言模型（LLMs）的人类偏好的问题，通过众包的方式收集用户对模型的偏好比较数据。
关键思路

Chatbot Arena采用一种成对比较的方法，通过众包的方式收集用户对模型的偏好比较数据，从而评估LLMs的性能。
其它亮点

Chatbot Arena已经运行了数个月，收集了超过240K的投票数据。通过分析数据，论文确认了众包问题的多样性和区分度，以及众包人类投票与专家评分的一致性。Chatbot Arena已成为最受关注的LLM排行榜之一，被广泛引用。
相关研究

与该论文相关的研究包括大型语言模型的性能评估、众包方法的应用、人类偏好的测量等。

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

评论