- 简介我们研究了在极弱监督(XWS)下的开放世界多标签文本分类,其中用户仅提供分类目标的简要描述,没有标签或基准标签空间。最近已经探索了类似的单标签XWS设置,但这些方法不能轻易地适应多标签。我们观察到(1)大多数文档具有覆盖大部分内容的主导类别,以及(2)长尾标签会在某些文档中作为主导类别出现。因此,我们首先利用用户描述来提示大型语言模型(LLM)提取一些原始文档的主导关键词,并通过聚类构建一个(初始)标签空间。我们进一步应用零样本多标签分类器来定位具有较小预测分数的文档,以便我们重新查看其主导关键词以获取更多的长尾标签。我们迭代此过程,发现一个全面的标签空间,并构建了一种新的多标签分类器X-MLClass。 X-MLClass在各种数据集上都展现出了显著的基准标签空间覆盖率提高,例如,在AAPD数据集上比主题建模和关键词提取方法提高了40%。此外,X-MLClass实现了最佳的端到端多标签分类准确性。
-
- 图表
- 解决问题本论文旨在解决开放世界多标签文本分类的极弱监督问题,即用户仅提供分类目标的简要描述,而没有标签或基准标签空间。这是否是一个新问题?
- 关键思路本文提出了一种新的方法X-MLClass,通过利用用户描述,使用大型语言模型(LLM)查找原始文档子集的主要关键词,并通过聚类构建(初始)标签空间,然后应用零样本多标签分类器定位得分较小的文档,以便更多地发现长尾标签。通过迭代此过程,发现全面的标签空间并构建多标签分类器。
- 其它亮点本文的亮点是,X-MLClass在各种数据集上都展现出了显著的提高基准标签空间覆盖率的能力,例如,在AAPD数据集上,与主题建模和关键词提取方法相比,提高了40%。此外,X-MLClass实现了最佳的端到端多标签分类准确性。
- 最近在这个领域中,还有一些相关的研究,例如《Multi-Label Learning with Millions of Labels: Recommending Advertiser Bid Phrases for Web Pages》和《Extreme Classification in Log Memory using Count-Min Sketch: A Case Study of Amazon Search with 50M Products》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流