多任务学习中,会存在多个网络部分,对应多个loss。看论文通常是把各loss统一到同一个数量级上,请问这么做的原理是什么?为什么一般不考虑不同网络部分梯度的数量级呢,另外如果不同网络部分单独优化的话,学习率该如何设计比较合理呢?
本文从数学原理出发,到代码实践,详细讲解了多任务学习中各loss的权重设计。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
举报类型(必选)
举报详情(选填)
0/200
沙发等你来抢
评论
沙发等你来抢