中科院计算所赵凯琳、靳小龙、王元卓的综述论文。定稿时间:2020-01-01,《软件学报》在线出版时间:2020-09-10。

摘要:

小样本学习旨在通过少量样本学习到解决问题的模型. 近年来在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功. 但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力. 所以,如何用少量样本进行学习就成为了目前人们需要关注的问题.本文系统梳理了当前小样本学习的相关工作,具体介绍了基于模型微调、基于数据增强和基于迁移学习三大类小样本学习模型与算法的研究进展;本文将基于数据增强的方法细分为基于无标签数据、基于数据合成和基于特征增强三类,将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络三类.本文还总结了目前常用的小样本数据集,以及代表性的小样本学习模型在这些数据集上的实验结果,随后对小样本学习的现状和挑战进行了概述,最后展望了小样本学习的未来发展方向.

展望部分如下:

1) 在数据层面,尝试利用其他先验知识训练模型,或者更好地利用无标注数据.为了使小样本学习的概念更靠近真实,可以探索不依赖模型预训练、使用先验知识(例如知识图谱)就能取得较好效果的方法.虽然在很多领域中标注样本数量很少,但真实世界中存在的大量无标注数据蕴含着大量信息,利用无标注数据的信息训练模型这个方向也值得深入研究. 2) 基于迁移学习的小样本学习面临着特征、参数和梯度迁移的挑战.为更好理解哪些特征和参数适合被迁移,需要提高深度学习的可解释性;为使模型在新领域新任务中快速收敛,需要设计合理的梯度迁移算法. 3) 针对基于度量学习的小样本学习,提出更有效的神经网络度量方法.度量学习在小样本学习中的应用已经相对成熟,但是基于距离函数的静态度量方法改进空间较少,使用神经网络来进行样本相似度计算将成为以后度量方法的主流,所以需要设计性能更好的神经网络度量算法. 4) 针对基于元学习的小样本学习,设计更好的元学习器.元学习作为小样本学习领域刚兴起的方法,目前的模型还不够成熟,如何设计元学习器使其学习到更多或更有效的元知识,也将是今后一个重要的研究方向. 5) 针对基于图神经网络的小样本学习,探索更有效的应用方法.图神经网络作为这几年比较火热的方法,已经覆盖到很多领域,并且可解释性强、性能好,但是在小样本学习中应用的模型较少,如何设计图网络结构、节点更新函数和边更新函数等方面值得进一步探究. 6) 尝试不同小样本学习方法的融合.现有小样本学习模型都是单一使用数据增强或迁移学习的方法,今后可以尝试将二者进行结合,从数据和模型两个层面同时进行改进以达到更好的效果.同时,近年来随着主动学习(active learning)和强化学习(reinforcement learning)框架的兴起,可以考虑将这些先进框架应用到小样本学习上.

内容中包含的图片若涉及版权问题,请及时与我们联系删除