CCL 2021丨汉语语体特征的计量与分类研究+邰沁清饶高琦

摘要：该文运用语料库和统计方法对汉语语体进行特征的计量研究，并进一步实现自动分类任务。首先通过单因素方差分析描述语体特征区别不同语体的作用和功能。其次，选取其中具有区分度的语言要素拟合逻辑回归模型，量化语体表达形式并观察特征对语体构成的重要性，并通过聚类计算得到了语体的范畴分类体系。最后，以具有代表性的机器学习模型为分类器，挖掘不同组合特征的结构对于语体自动分类的影响。得出在“词2n+词类2n+标点符号2n+语言特征”的组合特征上，取得了最好的分类结果，随机森林模型达到97.25%的准确率（篇幅原因，该部分省略）。

海报：