NLP语料库推荐：横跨六十余年，囊括人民日报、参考消息与腾讯新闻

近日，中国科学院软件研究所的刘焕勇在GitHub上公开了一份数据集，名字叫做ChineseDiachronicCorpus，翻译过来是：中文历时语料库。发布仅两天，已经获得了132个星。据作者介绍，此语料库时间维度横跨六十余年，具体而言，腾讯历时新闻2009-2016，人民日报历时语料1946-2003，参考消息历时语料1957-2002。

GitHub主页：https://github.com/liuhuanyong/ChineseDiachronicCorpus 每个数据集都有五个维度，包括id编号、新闻发布日期、新闻标题、新闻链接、以及新闻的主要内容。

作者表示，目前已经将数据发布至百度网盘，开放下载使用。数据名称 | 时间跨度 | 数据集大小 | 链接腾讯新闻 | 2009-2016 | 5GB | 提取码57ux 人民日报 | 1946-2003 | 3.44GB | 提取码jyvo 参考消息 | 1957-2002 | 1.1GB | 提取码6ekf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

NLP语料库推荐：横跨六十余年，囊括人民日报、参考消息与腾讯新闻

评论列表

评论