目前以 ChatGPT 为代表的大模型引起了学术界和工业界的广泛关注,构建大模型往往需要海量数据、大量算力和创新算法,其中数据是构建大模型必不可少的资源。然而,高质量数据集的建设成本高昂,此外很多数据由不同的机构构建,存储分散,而且由于商业竞争等原因,数据上形成了各自为战的局面,大家无法将分散的数据整合到一起发挥更大的作用。

智源研究院发起了公益项目“OpenLabel数据飞轮”,旨在克服大模型创新中的数据难题,打造一个开源数据平台,汇聚多方力量,打破数据壁垒,推动中国大模型创新进程。鼓励人人贡献共享,不啻微芒,造炬成阳!

地址:https://openlabel.baai.ac.cn/ 

OpenLabel数据共享标注平台已经上线,第一期关注的是中文语言模型中的微调Instruct任务数据。在ChatGPT的大潮下,这部分高质量、分布性广的数据是最为缺乏的,欢迎扫描二维码报名成为志愿者,大家一起共建共享!

 

OpenLabel 数据共享标注平台已经正式发布(openlabel.baai.ac.cn),第一阶段主要关注中文语言模型中的微调 Instruct 任务数据。在 ChatGPT 的大潮下,这部分高质量、分布性广的数据是最为缺乏的。第一个开源数据集将在4月15日预发布,5月1日正式发布,期待大家一起共建共享!

期待大家的参与!