数据科学家 Agnis Liukis ：在ML领域，初学者踩过的5个坑

近日，软件架构师、数据科学家、Kaggle 大师 Agnis Liukis 撰写了一篇文章，他在文中谈了谈在机器学习中最常见的一些初学者错误的解决方案，以确保初学者了解并避免它们。

Agnis Liukis 拥有超过 15 年的软件架构和开发经验，他熟练掌握 Java、JavaScript、Spring Boot、React.JS 和 Python 等语言。此外，Liukis 还对数据科学和机器学习感兴趣，他多次参加 Kaggle 比赛并取得好成绩，已达到 Kaggle 比赛大师级别。

文章要点如下：

1、在需要的地方没有使用数据归一化（data normalization）

对数据进行归一化操作，然后获取特征，并将其输入到模型中，让模型做出预测，这种方法是很容易的。但在某些情况下，这种简单方法的结果可能会让人失望，因为它缺少一个非常重要的部分。

2、认为特征越多越好

有人可能会认为加入所有特征是一个好主意，认为模型会自动选择并使用最好的特征。实际上，这种想法很难成真。

3. 在需要外推的情况下，使用基于树的模型

基于树的模型易于使用，功能强大，这也是其受欢迎的原因。然而，在某些情况下，使用基于树的模型可能是错误的。

4、在不需要的地方使用数据归一化

之前文章谈到了数据归一化的必要性，但情况并非总是如此，基于树的模型不需要数据归一化。神经网络可能也不需要明确的归一化，因为有些网络内部已经包含归一化层，例如 Keras 库的 BatchNormalization 操作。

5. 在训练集和验证集 / 测试集之间泄漏信息

造成数据泄漏比人们想象的要容易，考虑以下代码段：

数据泄漏的示例特性

实际上，这两种特征（sum_feature 和 diff_feature）都不正确。它们正在泄漏信息，因为在拆分到训练集 / 测试集后，具有训练数据的部分将包含来自测试的一些信息。这将导致更高的验证分数，但当应用于实际的数据模型时，性能会更差。

阅读详细内容

原文链接：https://towardsdatascience.com/5-typical-beginner-mistakes-in-machine-learning-3544bd4109b

内容中包含的图片若涉及版权问题，请及时与我们联系删除

数据科学家 Agnis Liukis ：在ML领域，初学者踩过的5个坑

评论列表

评论