An accurate detection is not all you need to combat label noise in web-noisy datasets

向作者提问

NEW

简介

本文基于最近的实证观察，即将无监督对比学习应用于嘈杂的网络爬取数据集可以产生特征表示，使得分布内（ID）和分布外（OOD）样本是线性可分的。我们展示了直接估计分隔超平面确实可以准确地检测OOD样本，然而，令人惊讶的是，这种检测并没有转化为分类准确度的提高。更深入地研究这种现象，我们发现近乎完美的检测漏掉了一类对监督学习有价值的干净样本。这些样本通常代表视觉上简单的图像，使用标准的损失或基于距离的方法相对容易识别为干净样本，尽管使用无监督学习与OOD分布相比较而言分离得不好。由于我们还观察到与SOTA指标的低相关性，这促使我们提出了一种混合解决方案，交替使用线性分离的噪声检测和最先进的（SOTA）小损失方法。当与SOTA算法PLS结合使用时，我们在存在网络噪声的真实世界图像分类中实现了实质性的SOTA结果的提高。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决在使用网络爬虫数据进行分类器训练时，如何处理注释错误和无关示例的问题。同时探究使用无监督对比学习对嘈杂的网络爬虫数据进行特征表示，是否能够实现内分布和外分布样本的线性可分。
关键思路

本文提出使用直接估计分离超平面的方法可以准确检测到外分布样本，但是这种检测并没有转化为分类准确率的提高。作者发现这种近乎完美的检测方法无法识别一类对于监督学习非常有价值的干净样本。因此提出一种混合解决方案，交替使用线性分离和基于小损失的最先进算法。
其它亮点

本文实验结果表明，提出的混合解决方案可以显著提高真实世界图像分类的性能，并且在嘈杂的网络爬虫数据上取得了优异的效果。作者还开源了代码。
相关研究

与本文相关的研究包括无监督对比学习、基于小损失的最先进算法等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问