Long-form factuality in large language models

2024年03月27日
  • 简介
    本文指出,大型语言模型(LLM)在回答开放性主题的事实查询时,往往会生成包含事实错误的内容。为了评估模型在开放领域中长篇事实的准确性,作者首先使用GPT-4生成了LongFact,一个包含38个主题数千个问题的提示集。然后,作者提出LLM代理可以通过一种名为Search-Augmented Factuality Evaluator(SAFE)的方法用作长篇事实性的自动评估器。SAFE利用LLM将长篇回答分解为一组单独的事实,并使用多步推理过程来评估每个事实的准确性,包括向Google搜索发送搜索查询并确定搜索结果是否支持事实。此外,作者建议将F1分数扩展为长篇事实性的汇总度量。为此,作者平衡了响应中支持的事实的百分比(精度)与相对于用户首选响应长度的超参数提供的事实的百分比(召回率)。实证结果表明,LLM代理可以优于众包人类注释者,在约16k个单独事实的数据集上,SAFE与众包人类注释者的一致性达到72%,在100个不一致案例的随机子集中,SAFE的胜率为76%。同时,SAFE比人类注释者更便宜20倍以上。作者还在四个模型系列(Gemini,GPT,Claude和PaLM-2)上对13个语言模型进行了评估,发现较大的语言模型通常可以实现更好的长篇事实性。LongFact、SAFE和所有实验代码均可在https://github.com/google-deepmind/long-form-factuality上获得。
  • 图表
  • 解决问题
    论文旨在解决长篇文本中事实准确性的评估问题,提出了一种基于搜索的自动化评估方法。
  • 关键思路
    论文提出了一种名为SAFE的方法,利用大型语言模型将长篇回答分解为多个事实,并使用多步推理过程通过向Google搜索发送查询来评估每个事实的准确性。同时,扩展了F1得分作为长篇事实性的聚合度量。
  • 其它亮点
    论文提出的SAFE方法在16k个事实上的评估结果显示,与众包人工注释者的一致性达到72%,并且在100个不一致案例的随机子集中,SAFE胜率达到76%。同时,SAFE比人工注释者便宜20多倍。论文还对13个语言模型进行了LongFact基准测试,发现较大的语言模型通常具有更好的长篇事实性。
  • 相关研究
    最近的相关研究包括:1.《GPT-3出现的事实错误:一个基准数据集和模型》;2.《对话中的事实检查:在对话中自动检查事实的方法》;3.《基于证据的多事实问题回答》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论