Instruction-Following Evaluation for Large Language Models

2023年11月14日
  • 简介
    大型语言模型(LLMs)的一个核心能力是遵循自然语言指令。然而,这种能力的评估并没有标准化:人工评估费时费力,且不具有客观可重复性,而基于LLM的自动评估则可能存在偏见或受评估LLM的能力限制。为了解决这些问题,我们引入了Instruction-Following Eval(IFEval)用于大型语言模型的评估。IFEval是一个简单易复现的评估基准,重点关注一组“可验证的指令”,例如“写超过400个单词”和“至少提到3次AI关键词”。我们确定了25种这些可验证指令,并构建了约500个提示,每个提示包含一个或多个可验证指令。我们展示了市场上两种广泛可用的LLMs的评估结果。我们的代码和数据可在https://github.com/google-research/google-research/tree/master/instruction_following_eval找到。
  • 图表
  • 解决问题
    评估大型语言模型(LLMs)的指令跟随能力存在哪些问题?本文试图解决这些问题并提出了一种易于重现的评估基准。
  • 关键思路
    本文提出了Instruction-Following Eval(IFEval)的评估基准,该基准集中于一组可验证的指令,例如“写入超过400个单词”和“至少提到3次AI关键字”。作者构建了约500个提示,每个提示包含一个或多个可验证的指令,并展示了两个市场上广泛可用的LLMs的评估结果。
  • 其它亮点
    本文提出的IFEval评估基准易于重现,侧重于可验证的指令,可以避免人类评估的昂贵和主观性问题,同时也可以避免LLM自我评估的潜在偏见或限制。作者使用了两个市场上广泛可用的LLMs进行实验,并提供了代码和数据集。
  • 相关研究
    最近的相关研究包括GPT-3和其他大型语言模型的评估,以及与LLMs的指令跟随能力相关的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论