Simple-Sampling and Hard-Mixup with Prototypes to Rebalance Contrastive Learning for Text Classification

简介

文本分类是自然语言处理中至关重要和基础的任务。与以前的预训练和交叉熵损失微调的学习范式相比，最近提出的监督对比学习方法因其强大的特征学习能力和鲁棒性而受到广泛关注。尽管已有几项研究将此技术纳入文本分类，但仍存在一些限制。首先，许多文本数据集存在不平衡性，而监督对比学习的学习机制对数据不平衡敏感，可能会损害模型性能。此外，这些模型利用单独的分类分支进行交叉熵和监督对比学习分支，而没有明确的相互指导。为此，我们提出了一种名为SharpReCL的新模型，用于不平衡的文本分类任务。首先，我们在平衡的分类分支中获取每个类别的原型向量，作为每个类别的表示。然后，通过进一步明确利用原型向量，我们构建了一个适当且足够的目标样本集，以相同的大小为每个类别执行监督对比学习过程。实证结果显示了我们模型的有效性，甚至在多个数据集上超过了流行的大型语言模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决文本分类中的数据不平衡问题，提出了一种新的模型SharpReCL，并通过实验证明其有效性和优越性。
关键思路

SharpReCL模型通过在平衡分类分支中获取每个类别的原型向量，并利用这些向量构建合适且充足的目标样本集，来执行监督对比学习过程，从而提高模型的性能。
其它亮点

论文使用了多个数据集进行实验，并且与当前流行的大型语言模型进行了比较，证明了SharpReCL模型的优越性。此外，论文提出的思路可以为解决其他类别不平衡的问题提供新的思路。
相关研究

近期在文本分类领域的相关研究包括：\n1. Supervised Contrastive Learning for Text Classification\n2. Learning from Class-imbalanced Data: Review and Analysis of Recent Approaches\n3. A Simple Framework for Contrastive Learning of Visual Representations

Simple-Sampling and Hard-Mixup with Prototypes to Rebalance Contrastive Learning for Text Classification

提问交流

提问交流