Efficient multi-prompt evaluation of LLMs

2024年05月27日
  • 简介
    本文指出,目前用于比较语言模型的流行基准测试仅依赖于有限的提示模板,这可能无法充分捕捉到语言模型的能力,并且可能影响排行榜上结果的可重复性。许多最近的研究在实证上验证了提示敏感性,并倡导改变语言模型的评估方式。本文考虑了一个问题,即估计跨多个提示变体的性能分布,而不是找到一个单一的提示进行评估。我们引入了PromptEval,一种估计跨大量提示的性能的方法,它通过跨提示和示例借鉴力量,以在实际评估预算下产生准确的估计结果。所得到的分布可以用于获得性能分位数,以构建各种稳健的性能指标(例如,前95%分位数或中位数)。我们证明了PromptEval能够一致地估计性能分布,并在三个著名的语言模型基准测试中进行了实证验证:MMLU,BIG-bench Hard和LMentry。例如,PromptEval可以在与两个单一提示评估相当的预算下准确估计MMLU上100个提示模板的性能分位数。我们的代码和数据可以在https://github.com/felipemaiapolo/prompt-eval找到。
  • 图表
  • 解决问题
    论文旨在解决LLM模型评估中常见的问题,即单一prompt模板无法充分体现模型的能力,从而提出一种基于多个prompt模板的性能估计方法。
  • 关键思路
    论文提出了PromptEval方法,通过在多个prompt模板间共享信息,实现在实际评估预算下准确估计性能分布,并可用于构建各种鲁棒性能度量。
  • 其它亮点
    论文在三个著名的LLM基准测试集上验证了PromptEval的有效性,并且可以在较小的预算下对100个prompt模板的MMLU数据集进行准确的性能量化。此外,论文提供了代码和数据集的开源。
  • 相关研究
    最近的相关研究主要集中在LLM模型的评估方法上,如使用不同的prompt模板进行评估,或者使用人类评估来验证模型的性能。相关论文包括《GPT-3 is not a table-lookup: mitigating the impact of out-of-distribution prompts》和《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问