Towards Real-world Scenario: Imbalanced New Intent Discovery

向作者提问

NEW

简介

新意图发现（NID）旨在利用有限的标记数据和大量未标记数据来检测已知和以前未定义的用户意图类别。大多数先前的研究通常在不切实际的假设下运行，即既熟悉又新的意图类别的分布是均匀的，忽略了在现实场景中经常遇到的偏斜和长尾分布。为了弥合这一差距，我们的工作引入了不平衡的新意图发现（i-NID）任务，旨在识别长尾分布中的熟悉和新的意图类别。我们创建了一个新的基准（ImbaNID-Bench），由三个数据集组成，以模拟现实世界的长尾分布。ImbaNID-Bench从广泛的跨领域到特定的单领域意图类别，提供了实际用例的全面表示。此外，我们提出了一个强大的基线模型ImbaNID，以实现友好的意图表示。它包括三个阶段：模型预训练、可靠伪标签的生成和强大的表示学习，以增强模型处理现实数据分布复杂性的性能。我们在先前的基准和新建立的基准上进行了广泛的实验，证明了ImbaNID在解决i-NID任务方面的优越性能，突出了其作为揭示和分类不平衡和长尾分布中用户意图的强大基线的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决新意图发现（NID）中常见的长尾分布问题，提出了不平衡新意图发现（i-NID）任务，并创建了一个新的基准数据集（ImbaNID-Bench）来模拟实际情况下的长尾分布。
关键思路

本文提出了一个强大的基线模型ImbaNID，包括模型预训练、可靠伪标签生成和强大的表示学习三个阶段，以解决i-NID任务中的长尾分布问题。
其它亮点

本文的亮点包括创建了一个新的基准数据集ImbaNID-Bench，用于模拟实际情况下的长尾分布；提出了一个强大的基线模型ImbaNID，通过模型预训练、可靠伪标签生成和强大的表示学习三个阶段来解决i-NID任务中的长尾分布问题；在多个数据集上进行了广泛的实验，并证明了ImbaNID模型在i-NID任务中的优越性。
相关研究

最近在这个领域中，还有一些相关的研究，例如《Few-Shot Intent Detection via Contrastive Pre-Training》、《Few-shot Intent Detection via Contrastive Pre-training and Fine-tuning》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问