- 简介人工标注的数据是知识的来源,通过描述问题的特征来推动训练模型的决策过程。不幸的是,主观自然语言处理(NLP)问题的标注过程,如冒犯性或情感检测,通常非常昂贵和耗时。其中一个不可避免的风险是将部分资金和标注者的精力花费在不提供特定任务任何额外知识的标注上。为了最小化这些成本,我们提出了一种新的基于模型的方法,允许在多任务场景中为每个文本选择单独标注的任务。在三个数据集、数十个NLP任务和数千个标注上进行的实验表明,我们的方法可以减少高达40%的标注数量,而知识损失可以忽略不计。结果还强调了收集不同数量的数据以有效训练模型的需要,这取决于标注任务的主观性。我们还专注于通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系。此外,对于某些数据集,仅训练我们的模型预测的标签可以提高任务选择的效率,作为一种自监督学习正则化技术。
- 图表
- 解决问题减少主观NLP问题的标注成本
- 关键思路提出一种基于模型的方法,允许在多任务场景下为每个文本选择单独标注的任务,从而最大程度地减少标注数量,同时保持知识的损失最小。
- 其它亮点实验表明,该方法可以最多减少40%的标注数量,同时几乎不会损失知识。此外,作者还测量了主观任务之间的关系,并提出了一种自监督学习正则化技术,即仅训练模型预测的标签,以提高任务选择的效率。
- 与该论文相关的其他研究包括:《Active Learning for NLP: An Overview》、《A Comprehensive Survey of Deep Learning for Natural Language Processing》等。
沙发等你来抢
去评论
评论
沙发等你来抢