- 简介在上下文学习(ICL)中,少量样本通常需要访问大量标注的训练集。然而,在许多实际场景中,例如域适应,只有有限的预算来注释少量样本,目的是最大化下游性能。我们研究了在预定义预算内选择样本进行注释的各种方法,特别关注命名实体识别(NER)任务,该任务具有实际应用,注释成本高,并且相对较少研究ICL设置。在不同的模型和数据集上,我们发现相对较小的注释样本池可以实现与使用整个训练集相当的结果。此外,我们发现随机选择样本进行注释可以获得出乎意料的良好性能。最后,我们观察到,多样化的注释池与性能提高有关。我们希望未来的工作采用我们考虑注释预算的现实范例。
-
- 图表
- 解决问题如何在有限的标注样本预算下,优化命名实体识别任务的表现?
- 关键思路在命名实体识别任务中,通过有限的标注样本预算,使用多种方法选择样本进行标注,发现随机选择样本也能达到不错的表现,同时发现样本池的多样性与表现相关。
- 其它亮点论文使用了命名实体识别任务作为研究对象,探讨了在有限的标注样本预算下,如何优化模型表现。实验结果表明,只标注少量样本就能达到与使用整个训练集相当的表现,同时随机选择样本也能得到不错的表现。此外,发现样本池的多样性与表现相关。论文提出了一种更加现实的标注预算模式,值得进一步研究。
- 在命名实体识别任务中,一些研究探讨了如何使用迁移学习、元学习等方法来优化模型表现,例如《Few-shot Learning for Named Entity Recognition in Medical Text》、《Few-shot Learning for Named Entity Recognition with Structured Nearest Neighbor Learning and Coarse-to-Fine Reasoning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流