Diverse and Fine-Grained Instruction-Following Ability Exploration with Synthetic Data

AAAI 2024
2024年07月04日
  • 简介
    指令跟随对于支持多样化用户请求的大型语言模型(LLMs)尤为关键。虽然现有工作在将LLMs与人类偏好对齐方面取得了进展,但由于现实世界用户指令的复杂性和多样性,评估它们的指令跟随能力仍然具有挑战性。虽然现有的评估方法侧重于通用技能,但它们存在两个主要缺点,即缺乏细粒度的任务级评估和依赖于单一指令表达。为了解决这些问题,本文介绍了DINGO,一个细粒度和多样化的指令跟随评估数据集,它具有两个主要优点:(1) DINGO基于手动注释的、细粒度的、多级别类别树,包含130个节点,这些节点来源于现实世界的用户请求;(2) DINGO包括由GPT-4和人类专家生成的多样化指令。通过广泛的实验,我们证明DINGO不仅可以为LLMs提供更具挑战性和全面性的评估,还可以提供任务级的细粒度指导,以进一步改进LLMs。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)在指令跟随方面的评估问题。现有的评估方法存在细节不够精细和过于依赖单一指令表达的问题。
  • 关键思路
    该论文介绍了一个基于手动注释的、细粒度和多级分类树的指令跟随评估数据集DINGO,包含了GPT-4和人类专家生成的多样化指令,提供了更具挑战性和全面性的LLMs评估方法。
  • 其它亮点
    DINGO数据集的亮点包括细粒度的任务级评估和多样化的指令。实验设计充分,使用了多个数据集和模型进行评估。论文提出的DINGO数据集对于LLMs的进一步改进提供了任务级的精细指导。
  • 相关研究
    最近的相关研究包括《Aligning AI with Human Values》、《Evaluating Large Language Models Trained on Code》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论