Context-Aware Clustering using Large Language Models

2024年05月02日
  • 简介
    尽管大型语言模型(LLMs)在文本理解和生成方面取得了显著的成功,但它们在文本聚类任务方面的潜力仍未得到充分开发。我们观察到,功能强大的闭源LLMs可以为实体集提供良好的质量聚类,但由于需要大量的计算资源和相关成本,因此不可扩展。因此,我们提出了CACTUS(Context-Aware ClusTering with aUgmented triplet losS),这是一种系统性方法,利用开源LLMs进行高效和有效的实体子集监督聚类,特别关注基于文本的实体。现有的文本聚类方法无法有效地捕捉实体子集提供的上下文。此外,虽然有几种基于语言建模的聚类方法,但很少有针对监督聚类任务设计的。本文介绍了一种新的方法,通过可扩展的实体间注意机制捕捉上下文,利用LLMs对实体子集进行聚类。我们提出了一种新颖的增强三元组损失函数,专门针对监督聚类,解决了将三元组损失直接应用于此问题的固有挑战。此外,我们引入了基于文本增强技术的自监督聚类任务,以提高模型的泛化能力。为了评估,我们从闭源LLMs收集了地面真实聚类,并将此知识转移到开源LLMs下的监督聚类框架中,使更快速、更便宜的开源模型能够执行相同的任务。在各种电子商务查询和产品聚类数据集上的实验表明,我们提出的方法在各种外部聚类评估指标下明显优于现有的无监督和监督基线。
  • 图表
  • 解决问题
    论文旨在探索使用大型语言模型(LLMs)进行文本聚类任务的潜力,提出了一种基于开源LLMs的有效和高效的有监督聚类方法,特别关注文本实体的聚类。
  • 关键思路
    通过引入可扩展的实体间注意机制来捕捉上下文,提出了一种基于LLMs的有监督聚类方法,并针对该问题提出了一种新的增强三元组损失函数,同时引入基于文本增强技术的自监督聚类任务以提高模型的泛化能力。
  • 其它亮点
    实验使用了多个电子商务查询和产品聚类数据集,证明了所提出的方法在各种外部聚类评估指标下明显优于现有的无监督和有监督基线。论文提出的增强三元组损失函数可以在有监督聚类中更好地处理此问题。此外,论文还提出了一种自监督聚类任务,以提高模型的泛化能力。
  • 相关研究
    最近的相关研究包括基于LLMs的文本聚类方法,但很少有针对有监督聚类任务的设计。此外,也有一些研究探索使用LLMs进行文本聚类,但由于需要大量计算资源和相关成本,目前尚未得到很好的解决。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论