Probabilistic Topic Modelling with Transformer Representations

简介

在过去的十年中，主题建模主要由贝叶斯图形模型主导。然而，随着自然语言处理中变压器的兴起，一些成功的模型出现了，这些模型依赖于变压器嵌入空间中的简单聚类方法，并巩固了主题作为嵌入向量聚类的概念。我们提出了变压器表示神经主题模型（TNTM），它结合了基于变压器嵌入空间的主题表示和概率建模的优点。因此，这种方法将基于变压器嵌入的强大而多功能的主题概念与完全概率建模统一起来，就像潜在狄利克雷分配（LDA）模型一样。我们利用变分自编码器（VAE）框架来提高推理速度和建模灵活性。实验结果表明，我们提出的模型在嵌入连贯性方面取得了与各种最先进方法相当的结果，同时保持了几乎完美的主题多样性。相应的源代码可在https://github.com/ArikReuter/TNTM上获得。
图表
解决问题

论文提出了Transformer-Representation Neural Topic Model (TNTM)，旨在将基于变压器嵌入空间的主题表示与概率建模相结合，以提高建模灵活性和推理速度。
关键思路

TNTM将变压器嵌入空间中的主题表示与概率建模相结合，利用变分自编码器（VAE）框架实现更快的推理速度和建模灵活性。
其它亮点

实验结果表明，TNTM在嵌入相干性方面的表现与各种最先进的方法相当，同时保持了几乎完美的主题多样性。论文开源了相应的代码。
相关研究

与TNTM相关的研究包括基于变压器的主题建模方法，如Clusterformer和Top2Vec，以及基于概率建模的方法，如LDA和CTM。

Probabilistic Topic Modelling with Transformer Representations

评论