本文首发于知乎,作者:鹏RPZ
 

主动学习试图通过标记最少量的样本使得模型的性能收益最大化。而深度学习则对数据比较贪婪,需要大量的数据供给来优化海量的参数,从而使得模型学会如何提取高质量的特征。近年来,由于互联网技术的快速发展,使得我们处在一个信息洪流的时代,我们拥有海量的未标记数据。借此,深度学习引起了研究人员的强烈兴趣,并且得到了快速的发展。和深度学习相比,研究人员对于主动学习的研究兴趣相对较低。这主要是由于在深度学习兴起之前,传统的机器学习所需要的标注样本相对较少。因此,早期的主动学习很难体现出应有的价值。尽管深度学习已经在各个领域取得了突破性进展,但是这绝大部分的成功都要归功于现有的大量标注数据集的公开。然而,大量高质量的标注数据集的获取需要消耗大量的人力,在一些需要很高专业知识的领域这是不被允许的,尤其是在语音识别、信息提取、医学图像等领域。因此,主动学习逐渐受到了应有的重视。

一种很自然的想法是能否使用主动学习来减少样本标注的成本,同时保留深度学习强大的学习能力。因此,深度主动学习出现了。尽管相关的研究已经相当的丰富,但是缺乏一个对深度主动学习全面的survey。本文正是要填补这项空白,我们为现有的工作提供了一个形式上统一的分类方法,并进行一个全面系统的概述。此外,我们还从应用的角度对DAL的发展进行了分析和总结。最后,我们对DAL中存在的困惑、问题进行了讨论,并给出了一些DAL可能的发展方向。

感兴趣的可以继续戳原文。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除