On the Evaluation of Machine-Generated Reports

简介

大型语言模型（LLMs）已经开创了满足信息需求的新方式。虽然在文档排名和短文本生成等领域已经取得了很大进展，但它们仍然难以组合出完整、准确和可验证的长篇报告。这些具备这些特征的报告对于满足用户复杂、微妙或多方面的信息需求是必要的。在这篇观点论文中，我们汇集了来自行业和学术界以及相关研究领域的意见，提出了我们自动报告生成的愿景，以及关键的灵活框架来评估这些报告。与其他摘要任务不同，自动报告生成从详细描述信息需求开始，陈述报告所需的背景、要求和范围。此外，生成的报告应该是完整、准确和可验证的。这些特点在许多分析报告撰写的情境中是必要的，需要重新思考如何构建和评估具备这些特点的系统。为了促进构建这些系统的新努力，我们提出了一个评估框架，借鉴了各种评估中发现的思想。为了测试完整性和准确性，该框架使用信息片段，表达为问题和答案，这些信息片段需要成为任何高质量生成报告的一部分。此外，对于将报告中的声明映射到其源文件的引用的评估，可以确保可验证性。
图表
解决问题

自动报告生成的问题是如何构建和评估系统以生成完整、准确和可验证的长篇报告？
关键思路

论文提出了一个灵活的框架，用于评估自动生成的报告的完整性、准确性和可验证性。该框架使用信息块来测试报告的完整性和准确性，并使用引文来验证报告中的声明。
其它亮点

论文讨论了自动生成报告的挑战和现有技术的局限性，并提出了一个新的评估框架。实验使用了多个数据集和评估指标来评估系统的性能，并提供了开源代码和数据集。值得进一步研究的是如何进一步提高自动生成报告的质量和效率。
相关研究

最近的相关研究包括文本摘要、文档排名和短文本生成。

On the Evaluation of Machine-Generated Reports

评论