【论文标题】Exploring the Relationship Between Algorithm Performance, Vocabulary, and Run-Time in Text Classification 【作者团队】Wilson Fearn,Orion Weller,Kevin Seppi 【发表时间】NAACL 2021 【机构】Brigham Young University 【论文链接】https://arxiv.org/pdf/2104.03848.pdf 【代码链接】https://github.com/wfearn/preprocessing-paper 【推荐理由】论文验证了词汇大小,运行时间和准确性之间的关系。实验表明词汇量虽然与测试时间高度相关,但与训练时间或准确性的相关性并不高。在这些情况下,预处理算法的细节(它删除的内容)更重要。

文本分类是自然语言处理的一个重要分支,在文档分类和情感分析等领域有着广泛的应用。不出所料,那些进行文本分类的人关心的是他们算法的运行时间,由于他们的单词袋表示,许多算法依赖于语料库词汇量的大小。尽管许多研究已经检查了预处理技术对词汇量和准确性的影响,但没有研究这些方法如何影响模型的运行时。为了填补这一空白,我们提供了一项综合研究,研究预处理技术如何影响词汇量、模型性能和模型运行时,并在四个模型和两个数据集上评估了10种技术。我们展示了一些单独的方法可以减少运行时间而不损失准确性,而一些方法的组合可以用2-5%的准确性换取高达65%的运行时间减少。此外,预处理技术的一些组合甚至可以减少15%的运行时间,同时提高模型的准确性。

内容中包含的图片若涉及版权问题,请及时与我们联系删除