MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation

2024年03月28日
  • 简介
    最近生成式大语言模型(LLMs)的进展非常显著,然而,这些模型生成的文本质量常常存在持续性问题。特别是在开放式文本中,评估这些模型生成的文本质量一直是一个重大挑战。为了解决这个问题,最近的研究探索了使用LLMs作为评估器的可能性。虽然使用单个LLM作为评估代理显示出潜力,但也存在显著的不确定性和不稳定性。为了解决这些问题,我们提出了MATEval:一个“多代理文本评估框架”,其中所有代理都由像GPT-4这样的LLMs扮演。MATEval框架模拟了人类协作讨论方法,整合多个代理的交互来评估开放式文本。我们的框架结合了自我反思和思维链策略,以及反馈机制,增强了评估过程的深度和广度,并引导讨论朝着共识方向发展,同时框架生成全面的评估报告,包括错误定位、错误类型和评分。实验结果表明,我们的框架优于现有的开放式文本评估方法,并与人类评估具有最高的相关性,这证实了我们的框架在解决评估LLMs生成文本中的不确定性和不稳定性方面的有效性和先进性。此外,我们的框架显著提高了工业场景中文本评估和模型迭代的效率。
  • 图表
  • 解决问题
    解决问题:论文旨在解决评估生成式大型语言模型(LLMs)生成的开放性文本质量的问题,提出一种基于多个LLMs的评估框架MATEval。
  • 关键思路
    关键思路:MATEval框架使用多个LLMs作为评估代理,模拟人类协作讨论的方法,包括自我反思和思维链策略,以及反馈机制,提高评估过程的深度和广度,并生成包括错误定位、错误类型和评分在内的全面评估报告。
  • 其它亮点
    其他亮点:实验结果表明,MATEval框架优于现有的开放性文本评估方法,并与人类评估具有最高的相关性。此外,该框架显著提高了工业场景中文本评估和模型迭代的效率。
  • 相关研究
    相关研究:最近的相关研究包括使用单个LLMs作为评估代理的方法,但存在不确定性和不稳定性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论