Breast Cancer Classification Using Gradient Boosting Algorithms Focusing on Reducing the False Negative and SHAP for Explainability

2024年03月14日
  • 简介
    癌症是全球最致命的疾病之一,其中乳腺癌是导致最多癌症病例和死亡的原因。然而,通过早期检测和及早治疗可以预防乳腺癌。许多研究聚焦于高准确性的癌症预测模型,但有时仅准确性并不总是可靠的指标。本研究采用探索性方法,研究基于提升的不同机器学习算法在预测乳腺癌方面的表现,重点关注召回率指标。提升机器学习算法已被证明是检测医学疾病的有效工具。研究利用加州大学尔湾分校(UCI)存储库的数据集来训练和测试模型分类器,其中包含它们的属性。本研究的主要目标是使用Adaboost、XGBoost、CatBoost和LightGBM等最先进的提升算法来预测和诊断乳腺癌,并找到最有效的召回率、ROC-AUC和混淆矩阵指标。此外,我们的研究是第一个使用这四种提升算法与超参数优化库Optuna和SHAP方法来提高模型的可解释性,这可以作为识别和预测乳腺癌的支持。我们能够改进所有模型的AUC或召回率,并减少Adaboost和LigthGBM的假阴性,最终AUC对于所有模型都超过了99.41%。
  • 图表
  • 解决问题
    本论文旨在通过使用四种提升算法(AdaBoost、XGBoost、CatBoost和LightGBM)结合Optuna和SHAP方法,探究基于召回率指标预测乳腺癌的效果,并寻找最有效的度量方式。
  • 关键思路
    本论文使用提升算法结合超参数优化和SHAP方法,提高了乳腺癌预测模型的AUC或召回率,并减少了误诊率。
  • 其它亮点
    论文使用了UCI数据集进行训练和测试,实验结果显示四种提升算法均能达到超过99.41%的AUC,且AdaBoost和LightGBM的误诊率得到了显著降低。此外,论文还使用了Optuna和SHAP方法,提高了模型的可解释性。
  • 相关研究
    最近的相关研究包括使用深度学习算法进行乳腺癌预测的研究,如“Breast Cancer Detection Using Deep Convolutional Neural Networks and Support Vector Machines”和“Breast Cancer Diagnosis Using Convolutional Neural Networks and Support Vector Machines”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论