- 简介主题建模经常被用于分析大型文本语料库,如新闻文章或社交媒体数据。BERTopic是最新的、目前最先进的主题建模方法,由句子嵌入、降维、聚类和主题提取组成。然而,当前的主题建模方法仍有改进的空间,因为作为无监督方法,它们需要仔细调整和选择超参数,例如降维和聚类。本文旨在分析BERTopic在实践中的技术应用。为此,它通过基于密度的聚类验证和六个不同的主题连贯性度量,比较和选择BERTopic各阶段的不同方法和超参数。此外,它还旨在分析主题建模在真实世界数据中的结果作为一个用例。为此,我们创建了德国虚假新闻数据集(GermanFakeNCovid)关于Covid-19,并结合FakeCovid数据集在多语言(英语和德语)环境中进行主题建模实验。通过最终的结果,我们能够确定美国和德国之间的主题相似性。然而,区分来自印度的假新闻主题证明更具挑战性。
- 图表
- 解决问题本论文旨在分析BERTopic在实践中的技术应用,比较和选择不同方法和超参数,并在真实数据上进行主题建模,以分析美国和德国之间的主题相似性和区分印度的虚假新闻主题。
- 关键思路本论文提出了一种通过密度聚类验证和六种不同的主题连贯性度量来选择BERTopic每个阶段的不同方法和超参数的方法,并使用德语虚假新闻数据集和FakeCovid数据集进行了实验。
- 其它亮点本论文的亮点包括使用密度聚类验证和多种主题连贯性度量来选择BERTopic的超参数,使用自己创建的德语虚假新闻数据集和FakeCovid数据集进行实验,并发现美国和德国之间存在主题相似性。
- 最近在这个领域中,还有一些相关的研究被进行,如“Topic Modeling in Twitter: Aggregating Tweets by Conversations”和“Evaluating Topic Models for Digital Libraries”。
沙发等你来抢
去评论
评论
沙发等你来抢