深度主动学习综述

本文首发于知乎，作者：鹏RPZ

主动学习试图通过标记最少量的样本使得模型的性能收益最大化。而深度学习则对数据比较贪婪，需要大量的数据供给来优化海量的参数，从而使得模型学会如何提取高质量的特征。近年来，由于互联网技术的快速发展，使得我们处在一个信息洪流的时代，我们拥有海量的未标记数据。借此，深度学习引起了研究人员的强烈兴趣，并且得到了快速的发展。和深度学习相比，研究人员对于主动学习的研究兴趣相对较低。这主要是由于在深度学习兴起之前，传统的机器学习所需要的标注样本相对较少。因此，早期的主动学习很难体现出应有的价值。尽管深度学习已经在各个领域取得了突破性进展，但是这绝大部分的成功都要归功于现有的大量标注数据集的公开。然而，大量高质量的标注数据集的获取需要消耗大量的人力，在一些需要很高专业知识的领域这是不被允许的，尤其是在语音识别、信息提取、医学图像等领域。因此，主动学习逐渐受到了应有的重视。

一种很自然的想法是能否使用主动学习来减少样本标注的成本，同时保留深度学习强大的学习能力。因此，深度主动学习出现了。尽管相关的研究已经相当的丰富，但是缺乏一个对深度主动学习全面的survey。本文正是要填补这项空白，我们为现有的工作提供了一个形式上统一的分类方法，并进行一个全面系统的概述。此外，我们还从应用的角度对DAL的发展进行了分析和总结。最后，我们对DAL中存在的困惑、问题进行了讨论，并给出了一些DAL可能的发展方向。

感兴趣的可以继续戳原文。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

深度主动学习综述

评论列表

评论