以数据为中心(Data-centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。有些人认为当前的人工智能领域, 无论是自然语言处理(如BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如github获得;而与此同时,工业界实际落地 过程中可能有80%的时间用于 清洗数据、构建高质量数据集,或在迭代过程中获得更多数据,从而提升模型效果。正是看到了这种巨大的差别,在吴恩达等人的推动下这种 以数据为中心 (Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。
DataCLUE是一个以数据为中心的AI测评。它基于CLUE benchmark,结合Data-centric的AI的典型特征,进一步将Data-centric的AI应用于 NLP领域,融入文本领域的特定并创造性丰富和发展了Data-centric的AI。在原始数据集外,它通过提供额外的高价值的数据和数据和模型分析报告(增值服务)的形式, 使得融入人类的AI迭代过程(Human-in-the-loop AI pipeline)变得更加高效,并能较大幅度的提升最终效果。
DataCLUE: A Chinese Data-centric Language Evaluation Benchmark
Github项目地址:
https://github.com/CLUEbenchmark/DataCLUE
官网:
www.CLUEbenchmarks.com/dataclue.html 或 www.clue.ai
内容导引
章节 | 描述 |
---|---|
简介 | 介绍以数据为中心的AI测评(DataCLUE)的背景 |
任务描述 | 任务描述 |
实验结果 | 针对各种不同方法,在FewCLUE上的实验对比 |
实验分析 | 对人类表现、模型能力和任务进行分析 |
数据为中心的AI_方法论介绍 | 数据为中心的AI:方法论介绍 |
DataCLUE有什么特点 | 特点介绍 |
基线模型及运行 | 支持多种基线模型 |
DataCLUE测评及规则 | DataCLUE测评及规则 |
数据集介绍 | 介绍数据集及示例 |
贡献与参与 | 如何参与项目或反馈问题 |
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢