Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

2024年03月07日
  • 简介
    大型语言模型(LLMs)已经解锁了新的能力和应用;然而,评估其与人类偏好的一致性仍然存在重大挑战。为了解决这个问题,我们介绍了Chatbot Arena,这是一个基于人类偏好评估LLMs的开放平台。我们的方法采用了成对比较的方法,并通过众包利用来自不同用户群体的输入。该平台已经运营了几个月,收集了超过240K的投票。本文描述了该平台,分析了我们迄今收集的数据,并解释了我们正在使用的经过验证的统计方法,以实现高效准确的评估和排名模型。我们确认,众包问题足够多样化和有区分性,众包人类投票与专家评分者的投票一致。这些分析共同为Chatbot Arena的可信度奠定了坚实的基础。由于其独特的价值和开放性,Chatbot Arena已成为最受引用的LLM排行榜之一,被领先的LLM开发者和公司广泛引用。我们的演示可在\url{https://chat.lmsys.org}上公开使用。
  • 图表
  • 解决问题
    Chatbot Arena旨在解决评估大型语言模型(LLMs)的人类偏好的问题,通过众包的方式收集用户对模型的偏好比较数据。
  • 关键思路
    Chatbot Arena采用一种成对比较的方法,通过众包的方式收集用户对模型的偏好比较数据,从而评估LLMs的性能。
  • 其它亮点
    Chatbot Arena已经运行了数个月,收集了超过240K的投票数据。通过分析数据,论文确认了众包问题的多样性和区分度,以及众包人类投票与专家评分的一致性。Chatbot Arena已成为最受关注的LLM排行榜之一,被广泛引用。
  • 相关研究
    与该论文相关的研究包括大型语言模型的性能评估、众包方法的应用、人类偏好的测量等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论