- 简介评估自动生成文本与源上下文之间的事实一致性对于开发可靠的自然语言生成应用程序至关重要。最近的文献提出了AlignScore,它使用统一的对齐模型来评估事实一致性,并在许多基准任务中显著优于以前的方法。在本文中,我们仔细研究了AlignScore中使用的数据集,并发现了一个意外的发现:利用较少的数据点实际上可以提高性能。我们处理原始的AlignScore训练数据集,去除噪声,增加鲁棒性增强的样本,并利用包含10%数据的子集来训练改进的事实一致性评估模型,我们称之为LIM-RA(Less Is More for Robust AlignScore)。LIM-RA表现出优异的性能,在四个基准测试中始终优于AlignScore和其他强基线(如ChatGPT)(其中两个利用传统的自然语言生成数据集,另外两个则专注于大型语言模型输出)。我们的实验表明,LIM-RA在33个测试数据集中的24个上取得了最高分,而在其余的测试数据集上保持竞争力,从而建立了新的基准测试的最新技术水平。
- 图表
- 解决问题论文旨在开发一种可靠的自然语言生成应用,通过使用统一的对齐模型来评估事实一致性,并且在多个基准测试中显著优于以前的方法。
- 关键思路通过精简数据点、增加鲁棒性增强样本,利用原始AlignScore训练数据集的子集(仅占10%)训练出一个更好的事实一致性评估模型LIM-RA,该模型在四个基准测试中表现优异,成为新的基准测试的最高分。
- 其它亮点该论文提出了一种新的事实一致性评估模型LIM-RA,并在多个基准测试中表现优异。实验使用了多个数据集,并且开源了代码。该论文的一个重要亮点是发现精简数据点可以提高模型性能。
- 最近在这个领域中,一些相关的研究包括:1)自然语言生成的其他评估方法;2)使用对齐模型进行文本匹配的研究。
沙发等你来抢
去评论
评论
沙发等你来抢