MultiChallenge: A Realistic Multi-Turn Conversation Evaluation Benchmark Challenging to Frontier LLMs

2025年01月29日
  • 简介
    我们推出了MultiChallenge,这是一个开创性的基准测试,用于评估大型语言模型(LLMs)与人类用户进行多轮对话的能力,这是其应用中至关重要但尚未得到充分研究的能力。MultiChallenge确定了四类挑战,这些挑战不仅在当前的人类与LLM交互中常见且现实,而且对所有前沿的LLM来说都非常具有挑战性。这四类挑战都要求准确的指令遵循、上下文分配以及情境推理能力。我们还开发了一个以LLM作为评判者的系统,并引入实例级别的评分标准,以促进自动评估方法的应用,该方法与经验丰富的评分员有公平的一致性。尽管在现有的多轮对话评估基准测试中取得了接近完美的分数,但所有前沿模型在MultiChallenge上的准确率都不到50%,其中表现最好的Claude 3.5 Sonnet(2024年6月版)仅达到了41.4%的平均准确率。
  • 图表
  • 解决问题
    该论文试图解决大型语言模型(LLMs)在多轮对话中表现不佳的问题,特别是这些模型在实际应用中面对的四种常见且具有挑战性的场景。这确实是一个新的问题,因为现有的评估基准未能充分测试LLMs在这种复杂交互中的能力。
  • 关键思路
    关键思路是开发一个多轮对话基准——MultiChallenge,专门用于评估LLMs在进行多轮对话时的能力。相比当前的研究,这篇论文通过识别四个具体挑战类别,并要求模型同时具备准确的指令跟随、上下文分配和情境推理能力,提出了更为严格的评估标准。此外,还引入了基于LLM的自动评价方法,以提高评估的一致性和效率。
  • 其它亮点
    论文设计了详细的实验来验证提出的基准的有效性,使用了真实的用户交互数据作为测试集,而不是合成数据。值得注意的是,即使是表现最好的前沿模型Claude 3.5 Sonnet,在这个新基准上的准确率也仅为41.4%,远低于现有基准的成绩。此外,研究团队开源了部分代码和数据集,鼓励社区进一步探索和改进。
  • 相关研究
    最近在这个领域内的相关研究包括:1) 'Evaluating Large Language Models on Multi-turn Dialogue',探讨了多轮对话中的特定挑战;2) 'Contextual Reasoning in Long Conversations',关注长对话中的上下文理解和推理;3) 'Automated Evaluation of Dialogue Systems',讨论了自动化评估系统的开发与应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论