- 简介近期深度预训练模型的微调揭示了组合性质,这使得多个专业模块可以任意组合成为一个多任务模型。然而,确定促进组合性的条件仍然是一个未解决的问题,最近的努力主要集中在线性网络上。我们进行了一项理论研究,试图通过损失函数的二阶泰勒近似来揭示标准非线性网络中的组合性。所提出的公式强调了保持在预训练基础上的重要性,以实现可组合的模块。此外,它为两种双重增量训练算法提供了基础:一种从多个单独训练的模型的角度,而另一种旨在优化整个组合模型。我们探究了它们在增量分类任务中的应用,并突出了一些有价值的技能。实际上,增量学习的模块池不仅支持创建有效的多任务模型,还可以实现特定任务的遗忘和专业化。
- 图表
- 解决问题本论文旨在通过理论研究,探讨如何在非线性网络中实现模块的组合性,以及如何优化组合模型的训练和应用,以解决多任务学习中的问题。
- 关键思路通过二阶泰勒近似损失函数,提出了一种在预训练基础上实现模块组合的方法,并基于此提出了两种增量训练算法,一种从多个单独训练的模型的角度出发,另一种则旨在优化整个组合模型。同时指出,保持在预训练基础上的训练有助于实现模块的组合性。
- 其它亮点论文的亮点在于提出了一种在非线性网络中实现模块组合的方法,并基于此提出了两种增量训练算法。实验结果表明,这些方法可以有效地支持多任务学习,同时还可以实现特定任务的专业化和遗忘。值得关注的是,论文未开源代码。
- 最近的相关研究主要集中在线性网络上,如《Deep Compositional Learning for Human-like Language Understanding》。
沙发等你来抢
去评论
评论
沙发等你来抢