目前以 ChatGPT 为代表的大模型引起了学术界和工业界的广泛关注,构建大模型往往需要海量数据、大量算力和创新算法,其中数据是构建大模型必不可少的资源。然而,高质量数据集的建设成本高昂,此外很多数据由不同的机构构建,存储分散,而且由于商业竞争等原因,数据上形成了各自为战的局面,大家无法将分散的数据整合到一起发挥更大的作用。

基于以上背景,智源研究院发起了公益项目“OpenLabel数据飞轮”,旨在克服大模型创新中的数据难题,打造一个开源数据平台,汇聚多方力量,打破数据壁垒,推动中国大模型创新进程。人人贡献共享,不啻微芒,造炬成阳!

图片

OpenLabel 数据共享标注平台已经发布(openlabel.baai.ac.cn),第一阶段主要关注中文语言模型中的微调 Instruct 任务数据,在 ChatGPT 的大潮下,这部分高质量、分布性广的数据是最为缺乏的。第一个开源数据集将在4月15日预发布,5月1日正式发布,期待大家一起共建共享!

即刻报名加入志愿者行列吧!小助手实测 1 分钟贡献 1~2 条,大家每天抽 10 分钟就可以成为AI开源数据集贡献者啦。

扫码报名成为志愿者👇

图片

快速进入官网贡献数据👇

https://openlabel.baai.ac.cn/(建议电脑端打开)

贡献者激励

我们将根据大家贡献的数量&质量评优发放奖励,表现优异者可获得 OpenLabel 优秀贡献者荣誉证书、智源大会线下坐席&专家交流机会、智源纪念T恤等。