- 简介大型语言模型(LLM)在回答开放式主题的事实查询提示时,往往会生成包含事实错误的内容。为了在开放领域中对模型的长篇事实进行基准测试,作者首先使用GPT-4生成了一个题目集,名为LongFact,包含了涵盖38个主题的数千个问题。然后,作者提出LLM代理可以通过一种名为Search-Augmented Factuality Evaluator(SAFE)的方法用作长篇事实的自动评估器。SAFE利用LLM将长篇回答分解为一组单独的事实,并使用多步推理过程评估每个事实的准确性,包括向Google搜索发送查询并确定搜索结果是否支持该事实。此外,作者提出将F1分数扩展为长篇事实的综合指标。为此,作者将回答中支持的事实百分比(精度)与相对于用户首选回答长度的超参数提供的事实百分比(召回率)进行平衡。实证结果表明,LLM代理可以胜过众包人工注释员。在约16k个单独事实的数据集上,SAFE与众包人工注释员的一致率为72%,在100个不一致案例的随机子集中,SAFE的胜率为76%。同时,SAFE的成本比人工注释员低20倍以上。作者还在LongFact上对13个语言模型进行了基准测试,包括四个模型系列(Gemini、GPT、Claude和PaLM-2),发现较大的语言模型通常实现更好的长篇事实性能。LongFact、SAFE和所有实验代码均可在https://github.com/google-deepmind/long-form-factuality上获得。
- 图表
- 解决问题论文旨在解决长篇文本中事实准确性评估的问题,提出了一种使用LLM代理进行自动评估的方法。
- 关键思路论文提出了一种名为SAFE的方法,使用LLM将长篇回答分解为一组单独的事实,并使用多步推理过程评估每个事实的准确性,通过发送搜索查询到Google搜索引擎并确定是否有支持事实的搜索结果来进行评估。同时,论文还扩展了F1分数作为长篇事实准确性的聚合度量。
- 其它亮点论文使用GPT-4生成了一个包含数千个问题的Prompt集,共38个主题,实验结果表明,LLM代理比人类标注员更准确且成本更低,同时,论文还对13个语言模型在LongFact上进行了评估,并开源了LongFact、SAFE和所有实验代码。
- 最近的相关研究包括:《BERTScore:评估生成文本的BERT相似度》、《FACT:基于搜索的事实检索和验证》、《GPT-3的长篇文本生成能力的评估》等。
沙发等你来抢
去评论
评论
沙发等你来抢