iBRF: Improved Balanced Random Forest Classifier

2024年03月14日
  • 简介
    类别不平衡是许多实际应用中经常出现的分类任务中的一个主要挑战。数据重采样被认为是解决这个问题的标准方法。该技术的目标是通过生成新样本或从数据中删除样本来平衡类别分布。多种采样技术已经被提出来解决这个具有挑战性的问题。采样技术也可以被纳入集成学习框架中,以获得更广义的预测性能。平衡随机森林(BRF)和SMOTE-Bagging是一些流行的集成方法。在本研究中,我们提出了一种修改BRF分类器以提高预测性能的方法。在原始算法中,随机欠采样(RUS)技术被用来平衡引导样本。然而,从数据中随机地删除太多样本会导致数据严重丢失,从而导致性能的大幅下降。我们提出了一种新型混合采样方法来缓解这种情况,以平衡每个引导子样本中的不平衡类别分布。当将我们提出的混合采样技术纳入随机森林分类器的框架中时,被称为iBRF:改进的平衡随机森林分类器,可以比不平衡分类任务中使用的其他采样技术获得更好的预测性能。在44个不平衡数据集上进行了实验,原始BRF分类器的平均MCC得分为47.03%,F1得分为49.09%。我们提出的算法通过产生更好的MCC得分53.04%和F1得分55%而优于原方法。所得到的结果表明了iBRF算法的优越性以及它作为不平衡学习中有效的采样技术的潜力。
  • 图表
  • 解决问题
    解决类别不平衡问题的分类任务,提高预测性能
  • 关键思路
    提出一种改进的平衡随机森林分类器(iBRF),采用新颖的混合采样方法来平衡不均衡的类分布,比其他采样技术在44个不平衡数据集上表现更好
  • 其它亮点
    论文介绍了在解决类别不平衡问题的分类任务中,数据重采样是一种常用的方法。提出的iBRF分类器采用新颖的混合采样方法来平衡不均衡的类分布,比其他采样技术表现更好。实验使用44个不平衡数据集,iBRF分类器的MCC得分为53.04%,F1得分为55%。
  • 相关研究
    近期的相关研究包括:1. Balanced Random Forest (BRF)和SMOTE-Bagging等集成方法在解决类别不平衡问题中的应用;2. 不同的数据重采样技术在解决类别不平衡问题中的比较研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论