DataCLUE 是一个应用在中文自然语言处理领域的、以数据为中心的AI测评。它给定了一个数据集,并固定模型和训练代码,要求通过改进数据集来提升最终效果。它提供了训练集train、验证集dev,并且都具有高比例的错误标注的数据;为了方便独立做实验它还提供了公开测试集。任务已经存在一段时间了,不过除了常规的训练模型的代码外,并没有提供一个怎么改进数据集的基线代码。

于是,本文作者提供了一个DataCLUE的baseline,以便大家可以方便做实验对比。

代码链接:https://github.com/CLUEbenchmark/DataCLUE

任务使用的数据集是一个超过100个类别的短文本的分类任务(简称cic)。给定一个句子,有一个唯一的标签与之对应。标签是一个中文的短句子的描述。任务是在给定数据集(训练集、验证集)情况下,改造训练集和验证集,然后通过使用固定的模型和代码获得更好的效果。也可以打包数据集并提交到榜单。测试集是不可见。

作者通过数据增强、找到并移除最有可能的可疑的标签错误的数据、利用标签定义的信息,以实现对数据集进行改进的目的。该baseline比较简单、易懂,并且获得了较好的效果。

内容中包含的图片若涉及版权问题,请及时与我们联系删除