作者:Yu Meng, Yunyi Zhang, Jiaxin Huang, 等
简介:本文利用预训练语言模型进行主题模型的创新研究。主题模型一直是从文本语料库中自动发现主题的重要工具。尽管它们很有效,但主题模型仍存在一些局限性,包括无法对文档中的词序信息进行建模、难以结合外部语言知识,以及缺乏准确和有效的推断方法来逼近棘手的后验。最近,预训练语言模型 (PLM) 凭借其卓越的文本表示,为各种任务带来了惊人的性能改进。有趣的是,还没有标准的方法来部署 PLM 以进行主题发现,作为主题模型的更好替代方案。在本文中,作者首先分析了使用 PLM 表示进行主题发现的挑战,然后提出了一个基于 PLM 嵌入的联合潜在空间学习和聚类框架。在潜在空间中,主题-词和文档-主题分布被联合建模,以便发现的主题可以通过连贯和独特的术语来解释,同时作为文档的有意义的摘要。作者的模型有效地利用了 PLM 为主题发现带来的强大的表示能力和卓越的语言特征,并且在概念上比主题模型更简单。在不同领域的两个基准数据集上,作者的模型比强主题模型生成更连贯和多样化的主题,并基于自动和人工评估提供更好的主题文档表示。
论文下载:https://arxiv.org/pdf/2202.04582.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢