On the Evaluation of Machine-Generated Reports

James Mayfield,
Eugene Yang,
Dawn Lawrie,
Sean MacAvaney,
Paul McNamee,
Douglas W. Oard,
Luca Soldaini,
Ian Soboroff,
Orion Weller,
Efsun Kayi,
Kate Sanders,
Marc Mason,
Noah Hibbler
24
热度
NLP
IR
2024年05月02日
  • 简介
    大型语言模型(LLMs)已经开创了满足信息需求的新方式。虽然在文档排名和短文本生成等领域已经取得了很大进展,但它们仍然难以组合出完整、准确和可验证的长篇报告。这些具备这些特征的报告对于满足用户复杂、微妙或多方面的信息需求是必要的。在这篇观点论文中,我们汇集了来自行业和学术界以及相关研究领域的意见,提出了我们自动报告生成的愿景,以及关键的灵活框架来评估这些报告。与其他摘要任务不同,自动报告生成从详细描述信息需求开始,陈述报告所需的背景、要求和范围。此外,生成的报告应该是完整、准确和可验证的。这些特点在许多分析报告撰写的情境中是必要的,需要重新思考如何构建和评估具备这些特点的系统。为了促进构建这些系统的新努力,我们提出了一个评估框架,借鉴了各种评估中发现的思想。为了测试完整性和准确性,该框架使用信息片段,表达为问题和答案,这些信息片段需要成为任何高质量生成报告的一部分。此外,对于将报告中的声明映射到其源文件的引用的评估,可以确保可验证性。
  • 图表
  • 解决问题
    自动报告生成的问题是如何构建和评估系统以生成完整、准确和可验证的长篇报告?
  • 关键思路
    论文提出了一个灵活的框架,用于评估自动生成的报告的完整性、准确性和可验证性。该框架使用信息块来测试报告的完整性和准确性,并使用引文来验证报告中的声明。
  • 其它亮点
    论文讨论了自动生成报告的挑战和现有技术的局限性,并提出了一个新的评估框架。实验使用了多个数据集和评估指标来评估系统的性能,并提供了开源代码和数据集。值得进一步研究的是如何进一步提高自动生成报告的质量和效率。
  • 相关研究
    最近的相关研究包括文本摘要、文档排名和短文本生成。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论