- 简介在自然语言处理(NLP)中,评估文本摘要一直是一个具有挑战性的任务。依赖于参考摘要的自动度量标准在许多情况下并不适用,而人工评估则耗时且劳动密集。为了弥合这一差距,本文提出了一种基于大型语言模型(LLMs)的新方法来评估文本摘要。我们还对八种自动度量标准、人工评估和我们提出的基于LLM的方法进行了比较研究。评估了七种不同类型的最先进的摘要模型。我们在专利文件数据集上进行了广泛的实验和分析。结果表明,LLMs评估与人工评估密切相关,而广泛使用的自动度量标准,如ROUGE-2、BERTScore和SummaC则不具有一致性。基于实证比较,我们提出了一个基于LLM的框架,用于自动评估和改进文本摘要,这对社区非常有益,并且可能会引起广泛关注。
-
- 图表
- 解决问题论文提出了一种基于大型语言模型的方法来评估文本摘要的质量,以弥补自动度量和人工评估之间的差距。
- 关键思路使用大型语言模型来评估文本摘要的质量,提出了一种新的框架来自动评估和改进文本摘要。
- 其它亮点论文比较了八种自动度量、人工评估和基于大型语言模型的方法,对七种最先进的文本摘要模型进行了实验和分析。实验使用专利文档数据集,结果表明大型语言模型评估的结果与人工评估相符。提出的框架有助于自动评估和改进文本摘要。
- 与该论文相关的研究包括文本摘要、自然语言处理和大型语言模型等领域的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流