近日,中国科学院软件研究所的刘焕勇在GitHub上公开了一份数据集,名字叫做ChineseDiachronicCorpus,翻译过来是:中文历时语料库。发布仅两天,已经获得了132个星。 据作者介绍,此语料库时间维度横跨六十余年,具体而言,腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。
GitHub主页:https://github.com/liuhuanyong/ChineseDiachronicCorpus 每个数据集都有五个维度,包括id编号、新闻发布日期、新闻标题、新闻链接、以及新闻的主要内容。
作者表示,目前已经将数据发布至百度网盘,开放下载使用。 数据名称 | 时间跨度 | 数据集大小 | 链接 腾讯新闻 | 2009-2016 | 5GB | 提取码57ux 人民日报 | 1946-2003 | 3.44GB | 提取码jyvo 参考消息 | 1957-2002 | 1.1GB | 提取码6ekf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢