- 简介主题建模已经越来越流行于总结文本数据,例如社交媒体帖子和文章。然而,主题建模通常是一次性完成的。评估生成主题的质量是具有挑战性的。目前还没有有效的方法或措施来评估结果或进一步改进主题。在这项研究中,我们提出使用迭代过程来执行主题建模,当过程完成时,会产生一种主题的完整感。使用主题建模中流行的BERTopic包,我们演示了如何迭代应用建模过程,以得出一组主题,这些主题使用三个选择的聚类比较度量之一作为决策标准,无法进一步改进。这个演示是在COVIDSenti-A数据集的子集上进行的。早期的成功使我们相信,进一步研究使用这种方法与其他主题建模算法结合使用可能是可行的。
- 图表
- 解决问题本论文提出了一种迭代式的主题建模方法,旨在解决现有主题建模方法难以有效评估结果质量的问题。
- 关键思路本论文使用BERTopic包进行迭代式主题建模,并通过三种聚类比较方法作为决策标准,得出一组主题集合,认为这是最终结果。这种方法相比现有主题建模方法具有新颖性。
- 其它亮点论文使用COVIDSenti-A数据集进行实验,并开源了代码。实验结果表明,迭代式主题建模方法能够得到更为准确和完整的主题集合。本方法可与其他主题建模算法结合使用,值得进一步研究。
- 近期相关研究包括《Topic Modeling for Text Mining: A Review》、《A Survey of Topic Modeling in Text Mining》等。
沙发等你来抢
去评论
评论
沙发等你来抢