Evaluating Text Summaries Generated by Large Language Models Using OpenAI's GPT

2024年05月07日
  • 简介
    本研究探讨了OpenAI的GPT模型作为独立的文本摘要评估器的有效性,评估了Hugging Face的六个基于transformer的模型(DistilBART、BERT、ProphetNet、T5、BART和PEGASUS)生成的文本摘要的关键特性,包括简洁性、相关性、连贯性和可读性,使用传统的ROUGE和潜在语义分析(LSA)等指标进行评估。独特的是,我们将GPT作为评估器而不是摘要器,使其能够独立评估摘要质量,而不需要预定义的指标。我们的分析揭示了GPT评估和传统指标之间的显著相关性,特别是在评估相关性和连贯性方面。结果表明,GPT有潜力成为评估文本摘要的强大工具,提供补充传统指标的见解,并为比较自然语言处理任务中基于transformer的模型提供基础。
  • 图表
  • 解决问题
    本论文旨在探讨使用OpenAI的GPT模型作为独立评估器,评估基于Hugging Face的六种基于transformer的模型生成的文本摘要的有效性。同时,本论文还试图探究GPT模型在文本摘要评估中的潜在作用。
  • 关键思路
    本论文提出了一种新的方法,使用GPT模型作为独立的文本摘要评估器,通过对传统指标(如ROUGE和LSA)和GPT评估结果的比较,评估基于transformer的模型生成的文本摘要的质量。
  • 其它亮点
    本论文的实验结果表明,GPT模型可以作为一种有效的文本摘要评估工具,能够提供与传统指标不同的洞察力。同时,本论文还使用了多个数据集,并提供了开源代码,为后续研究提供了基础。
  • 相关研究
    与本论文相关的研究包括基于transformer的文本摘要模型的研究,如DistilBART、BERT、ProphetNet、T5、BART和PEGASUS等。近期的相关研究还包括使用预训练模型进行文本摘要的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论