在拟合机器学习或统计模型之前,开发者通常需要清洗数据。用杂乱数据训练出的模型无法输出有意义的结果。为了将数据清洗简单化,本文介绍了一种新型完备分步指南,支持在 Python 中执行数据清洗流程。读者可以学习找出并清洗以下数据的方法:

  1. 缺失数据;
  2. 不规则数据(异常值);
  3. 不必要数据:重复数据(repetitive data)、复制数据(duplicate data)等;
  4. 不一致数据:大写、地址等;

该指南使用的数据集是 Kaggle 竞赛 Sberbank 俄罗斯房地产价值预测竞赛数据(该项目的目标是预测俄罗斯的房价波动)。本文并未使用全部数据,仅选取了其中的一部分样本。

内容中包含的图片若涉及版权问题,请及时与我们联系删除