北航李建欣团队的综述论文。

文本分类是自然语言处理中最基本、最基本的任务。过去十年,由于深度学习取得了前所未有的成功,这一领域的研究激增。大量的方法、数据集和评价指标已经在文献中提出,提高了全面和更新综述的需要。本文通过回顾1961年到2020年的先进方法的现状来填补这一空白,侧重于从浅到深的模型学习。我们根据所涉及的文本和用于特征提取和分类的模型创建文本分类的分类法。然后我们详细讨论每一个类别,处理支持预测测试的技术发展和基准数据集。本综述还提供了不同技术之间的综合比较,以及确定各种评估指标的优缺点。最后,总结了本研究的关键意义、未来研究方向和面临的挑战。

内容中包含的图片若涉及版权问题,请及时与我们联系删除