- 简介本文通过一系列实验,全面分析了可解释的事实核查,重点关注大型语言模型验证公共卫生声明的能力,并提供解释或证明其真实性的理由。我们考察了各种开源和闭源模型在零/少量提示和参数高效微调方面的有效性,检查它们在真实性预测和解释生成的独立和联合任务中的表现。重要的是,我们采用了双重评估方法,包括先前建立的自动度量标准和一组新的人工评估标准。我们的自动评估表明,在零提示情况下,GPT-4表现最佳,但在少量提示和参数高效微调情况下,开源模型展示了它们不仅能够弥合性能差距,而且在某些情况下甚至超越了GPT-4。人工评估揭示了更多细微差别,同时也指出了金标准解释可能存在的问题。
- 图表
- 解决问题本论文旨在通过一系列实验,重点研究大型语言模型在验证公共健康声明并为其真实性评估提供解释或理由方面的可解释性事实检查能力。
- 关键思路本论文采用零/少量提示和参数有效微调的方法,对各种开源和闭源模型进行了评估,考察它们在真实性预测和解释生成的独立和联合任务中的性能。
- 其它亮点本论文采用了双重评估方法,包括先前建立的自动度量标准和一组新的人工评估标准。自动评估表明,在零提示情况下,GPT-4表现最佳,但在少量提示和参数有效微调情况下,开源模型展示了不仅能够弥合性能差距,而且在某些情况下甚至超过GPT-4的能力。人工评估揭示了更多的细微差别,并指出了金标准解释可能存在的问题。
- 最近在这个领域中,还有一些相关的研究,如:《Explainable AI for Fact-Checking: A Comprehensive Review and Future Directions》、《Fact-Checking and Beyond: New Directions in Explaining (Away) False Information》等。
沙发等你来抢
去评论
评论
沙发等你来抢