- 简介在自然语言处理中,识别LLM输出是否可以以证据为基础是许多任务的核心,包括检索增强生成、摘要、基于文档的对话等。目前这种“事实核查”的方法是使用LLM验证模型生成的每个部分是否与潜在证据相符。然而,这个过程可能非常耗费计算资源,需要多次调用LLM才能检查单个响应。在这项工作中,我们展示了如何构建小型模型,具有GPT-4级别的性能,但成本降低了400倍。我们通过使用GPT-4构建合成训练数据来实现这一点,这涉及通过结构化生成过程创建逼真但具有挑战性的事实错误实例。在这些数据上训练可以教会模型检查每个声明中的事实,并识别跨句子的信息综合。为了评估,我们将现有的数据集统一为基准LLM-AggreFact,这些数据集是从最近的事实核查和基于LLM的生成工作中收集的。我们最好的MiniCheck-FT5系统(770M参数)优于所有相似大小的系统,并达到了GPT-4的准确性。我们发布LLM-AggreFact、数据合成的代码和模型。
- 图表
- 解决问题本论文旨在解决检查LLM输出是否有依据的问题,并提出了一种更加高效的方法。该方法通过构建合成训练数据并训练小模型来实现GPT-4级别的性能,但成本降低了400倍。
- 关键思路通过构建合成训练数据并训练小模型,本文提出了一种更加高效的方法,以检查LLM输出是否有依据。
- 其它亮点本文的亮点包括使用合成数据进行训练、设计了一个评估基准测试集LLM-AggreFact、开源了代码和模型等。实验结果表明,MiniCheck-FT5(770M参数)的性能优于同等大小的所有系统,并达到了GPT-4的准确性。
- 最近在这个领域中,有关检查LLM输出是否有依据的相关研究包括:Retrieval-Augmented Generation with Flexible Spans、Fact-Checking with External Evidence、FEVER: a Large-scale Dataset for Fact Extraction and VERification 等。
沙发等你来抢
去评论
评论
沙发等你来抢