Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams

简介

互联网上文本数据的大量增加为机构和公司监测公众对其服务和产品的看法提供了独特的机会。考虑到这些数据的快速生成，处理顺序到达、潜在无限的文本流的文本流挖掘设置通常比传统的批处理学习更合适。虽然预训练的语言模型通常因其高质量的文本向量化能力而在流媒体环境中得到应用，但它们面临着适应概念漂移的挑战——这种现象会导致数据分布随时间变化，从而对模型性能产生不利影响。为了解决概念漂移问题，本研究探讨了七种文本采样方法的有效性，这些方法旨在有选择地微调语言模型，从而减轻性能下降。我们使用四种不同的损失函数精确评估了这些方法对SBERT模型的微调效果。我们的评估集中在Macro F1-score和经过时间的消耗上，采用了两个文本流数据集和一个增量SVM分类器来基准测试性能。我们的研究结果表明，Softmax损失和Batch All Triplets损失对文本流分类特别有效，表明更大的样本量通常与更好的宏观F1分数相关。值得注意的是，我们提出的WordPieceToken比例采样方法显著提高了使用已确定的损失函数的性能，超过了基线结果。
图表
解决问题

本论文旨在解决流式文本分类中的概念漂移问题，探索七种文本采样方法对SBERT模型微调的有效性。
关键思路

通过选择性微调语言模型，来缓解模型性能下降的问题。文中使用四种不同的损失函数对SBERT模型进行微调，并精确评估这些方法对模型性能的影响。
其它亮点

实验使用两个文本流数据集和增量SVM分类器来评估性能，重点关注宏F1分数和经过的时间。发现Softmax损失和Batch All Triplets损失特别有效，且较大的样本量通常与改进的宏F1分数相关。提出的WordPieceToken比例采样方法在使用所识别的损失函数方面显著提高了性能，超过了基线结果。
相关研究

最近的相关研究包括使用神经网络进行文本分类、探索不同的文本采样方法以及解决概念漂移的问题。相关论文包括“Neural Networks for Text Classification”，“Text Sampling for Training Neural Networks”，“Addressing Concept Drift in Streaming Text Classification with Adversarial Domain Adaptation”。

Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams

评论