历时语言资源必备：新闻联播文字版等历时语料库概述及其潜在研究场景总结

语言是人类重要的交际工具，同时也是社会的镜子，语言记录并反映了社会，对语言记录进行挖掘、计算，可以从各个层面对社会进行解读。例如，基于语料库进行词语考察，以反映单个词语在不同时间周期中的使用及变动情况。

以语料为载体，挖掘出属于某个特定时间周期的社会特点，例如年度关键词、年度人物、年度流行语；对词语进行文化计算，如颜色计算、性别计算、观点计算等，以考察整个社会对某一事物、看法的演变。

当前，开源可用的中文历时语料库较少。代表性的有北京语言大学国家语言资源监测与研究平面媒体中心DCC动态流通语料库，其对国内数十家报纸媒体进行监测，也有中国传媒大学网络媒体中心的历时语料库可以使用。

当前，随着网络技术的发展以及采集技术的相对成熟，构建起历时语料库变得越来越容易，这就使得向外界共享历时语料库变得更为便利且必要【当然需要版权意识】。

本文主要介绍三个历时语料库，包括人民日报 1946-2003、参考消息 1957-2003以及新闻联播 2007-2022，其中，新闻联播 2007-2022是一个新出的语料库，很有参考性。

内容中包含的图片若涉及版权问题，请及时与我们联系删除