- 简介随着人们越来越重视健康,互联网上健康信息的传播速度和广度也在增加。同时,虚假的健康信息(健康谣言)与真实内容混杂在一起,对公共健康构成了重大潜在威胁。然而,目前关于中国健康谣言的研究仍缺乏大规模、公开和开源的健康谣言信息数据集,以及有效可靠的谣言检测方法。本文通过对常见健康问题进行网络爬虫和一系列数据处理步骤,构建了一个包含112万条健康相关谣言(HealthRCN)的数据集。HealthRCN是迄今为止已知的最大的中文健康信息谣言数据集。基于这个数据集,我们提出了检索增强的中文健康谣言检测和可解释性(HRDE)大型语言模型。该模型利用检索到的相关信息来准确判断输入的健康信息是否是谣言,并提供解释性的回答,有效帮助用户验证健康信息的真实性。在评估实验中,我们比较了多个模型,并发现HRDE在谣言检测准确性和答案质量方面均优于它们,包括GPT-4-1106-Preview。HRDE实现了平均精度为91.04%和F1得分为91.58%。
- 图表
- 解决问题构建一个大规模、公开、开源的中文健康谣言数据集,以及有效和可靠的谣言检测方法。
- 关键思路提出了一种基于检索增强的大型语言模型的中文健康谣言检测和可解释性方法(HRDE),利用检索到的相关信息来准确确定输入的健康信息是否是谣言,并提供解释性响应,帮助用户验证健康信息的真实性。
- 其它亮点构建了一个包含112万个健康相关谣言的数据集(HealthRCN),是迄今为止已知的最大的中文健康信息谣言数据集。通过评估实验,发现HRDE在谣言检测精度和答案质量方面优于其他模型,包括GPT-4-1106-Preview。HRDE平均精度为91.04%,F1分数为91.58%。
- 与健康信息谣言检测相关的一些研究包括:《基于深度学习的中文健康谣言检测》、《一种基于BERT的中文健康谣言检测方法》、《中文健康谣言检测的研究进展》等。
沙发等你来抢
去评论
评论
沙发等你来抢