- 简介许多机器学习方案尝试进行垃圾邮件检测,但这些方案大多需要大量标记数据。解决数据不足问题的现有技术存在有效性和鲁棒性问题。因此,本文提出了一种条件半监督数据增强(CSSDA)方法,用于缺乏数据的垃圾邮件检测模型。CSSDA的主要架构包括特征提取和增强生成网络。在这里,我们利用未标记的数据进行数据增强,以扩展训练数据。我们提出方案中的增强生成器通过条件方案从未标记的数据中生成潜在变量作为假样本。潜在变量可以来自有标记和未标记的数据,作为我们垃圾邮件检测模型中最终分类器的输入。实验结果表明,与利用未标记数据和不利用未标记数据的几种相关方法相比,我们提出的CSSDA方法取得了出色的结果。在具有各种数量的未标记数据的实验阶段,当有大量标记数据可用时,CSSDA是唯一能够获得约85%平衡准确度的鲁棒模型。我们还进行了几项消融研究,以详细研究我们的提出方案。结果还表明,几项消融研究加强了我们的创新。这些实验表明,未标记数据对于使用条件半监督方案进行数据增强以进行垃圾邮件检测具有重要贡献。
- 图表
- 解决问题解决问题的论文是如何在缺乏标记数据的情况下,提高垃圾邮件检测模型的准确性和鲁棒性?
- 关键思路论文提出了一种条件半监督数据增强(CSSDA)方法,利用未标记数据进行数据增强,通过增强生成网络产生潜在变量作为假样本,从而扩展训练数据。CSSDA模型的主要架构包括特征提取和增强生成网络。
- 其它亮点论文通过实验表明,CSSDA方法相比于其他方法,能够在缺乏标记数据的情况下获得更好的性能,当标记数据可用时,CSSDA是唯一能够获得约85%平衡准确性的鲁棒模型。此外,论文还进行了几项消融实验来详细研究所提出的方案。
- 最近在这个领域中,还有一些相关的研究,例如:“A survey of machine learning techniques for spam filtering”(用于垃圾邮件过滤的机器学习技术综述)和“Spam filtering: A review”(垃圾邮件过滤:一篇综述)。
沙发等你来抢
去评论
评论
沙发等你来抢