样本不均的问题大家已经很常见了,我们总是能看到某一个类目的数量远高于其他类目,举个例子,曝光转化数远低于曝光未转化数。样本不均严重影响了模型的效果,甚至影响到我们对模型好坏的判断,因为模型对占比比较高的类目准确率非常高,对占比很低的类目预估的偏差特别大,但是由于占比较高的类目对loss/metric影响较大,我们会认为得到了一个较优的模型。比如像是异常检测问题,我们直接返回没有异常,也能得到一个很高的准确率。

本文总结了一些常用的针对样本不平均问题的解决方法。

阅读详情