- 简介大型语言模型(LLMs)在回答开放式主题的事实查询提示时,往往会生成包含事实错误的内容。为了在开放域中基准化模型的长篇事实性,我们首先使用GPT-4生成了一个包含数千个问题的提示集,涵盖了38个主题,名为LongFact。然后,我们提出LLM代理可以通过一种称为Search-Augmented Factuality Evaluator(SAFE)的方法用作长篇事实性的自动评估器。SAFE利用LLM将长篇回答分解为一组单独的事实,并使用多步推理过程对每个事实的准确性进行评估,包括向Google Search发送搜索查询并确定搜索结果是否支持事实。此外,我们提出将F1得分扩展为长篇事实性的聚合指标。为此,我们将响应中支持的事实百分比(精确度)与相对于代表用户首选响应长度的超参数提供的事实百分比(召回率)进行平衡。实证上,我们证明LLM代理可以实现超人类评级表现 - 在约16,000个单独事实的数据集上,SAFE与众包人工注释者达成72%的一致性,在100个不一致情况的随机子集中,SAFE获胜的比例为76%。同时,SAFE比人工注释者便宜20多倍。我们还在LongFact上对13个语言模型进行了基准测试,涵盖了四个模型系列(Gemini,GPT,Claude和PaLM-2),发现较大的语言模型通常实现更好的长篇事实性。LongFact,SAFE和所有实验代码均可在https://github.com/google-deepmind/long-form-factuality上获得。
- 图表
- 解决问题论文旨在解决长篇文章中事实准确性的评估问题。通过提出一种名为Search-Augmented Factuality Evaluator (SAFE)的方法,利用大型语言模型将长篇回答分解为多个事实,并通过向Google搜索发送查询来评估每个事实的准确性。
- 关键思路论文的关键思路是使用SAFE方法将长篇文章分解为多个事实,并利用大型语言模型和Google搜索来评估每个事实的准确性,从而实现长篇文章事实准确性的自动评估。
- 其它亮点论文提出的SAFE方法可以实现超人类级别的评估准确性,并且比人工评估更便宜。论文还在38个主题上提出了一个包含数千个问题的数据集LongFact,并对13个语言模型进行了评估。论文的代码和数据集都已经公开。
- 在相关研究方面,最近也有一些研究探索如何评估事实的准确性,例如《FEVER: A Large-scale Dataset for Fact Extraction and VERification》和《MultiFC: A Real-World Multi-Domain Dataset for Evidence-Based Fact Checking of Claims》。
沙发等你来抢
去评论
评论
沙发等你来抢