The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism

2024年07月15日
  • 简介
    目前对于大型语言模型(LLMs)的评估通常忽略了非确定性,通常只关注每个示例的单个输出。这限制了我们对于LLM在实际应用中性能变异性的理解。我们的研究通过探讨贪婪解码和采样之间性能差异的关键问题,确定基准测试在非确定性方面的一致性,并检查独特的模型行为来解决这个问题。通过广泛的实验,我们观察到贪婪解码通常在大多数评估任务中优于采样方法。我们还观察到不同LLM大小和对齐方法之间的一致性表现,指出对齐可以减少采样方差。此外,我们的最佳N采样方法表明,较小的LLMs可以匹配或超越像GPT-4-Turbo这样的更大模型,突显了较小LLMs的未开发潜力。这项研究显示了在LLM评估中考虑非确定性的重要性,并为未来LLM的开发和评估提供了见解。
  • 图表
  • 解决问题
    本论文旨在探讨大型语言模型(LLMs)在非确定性方面的表现,并提供未来LLM发展和评估的见解。
  • 关键思路
    通过对贪心解码和采样方法的比较,研究了LLM的性能差异,并观察到贪心解码通常优于采样方法。此外,通过实验发现对齐可以减少采样方差,而最佳N采样方法可以展示较小的LLMs的潜力。
  • 其它亮点
    本研究强调了考虑LLMs的非确定性在评估中的重要性,并提供了有关LLM性能变化的见解。实验设计充分,使用了多个数据集,并提出了最佳N采样方法。此外,研究表明较小的LLMs也可以达到与大型模型相当的性能。
  • 相关研究
    最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》和《GPT-3: Language Models are Few-Shot Learners》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论