每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Synthetic Tabular Data Generation for Imbalanced Classification: The Surprising Effectiveness of an Overlap Class
2024年12月20日
在构建表格数据分类器时,处理类别分布不平衡的问题一直是长期关注的焦点。一种流行的方法是通过合成生成的数据来扩充训练数据集。传统的增强技术仅限于现有少数类样本的线性插值,而最近,更高容量的深度生成模型提供了更大的潜力。 然而,在构建深度生成模型时处理类别分布不平衡也是一个具有挑战性的问题,这方面的研究不如不平衡分类模型训练那么深入。我们发现,最先进的深度生成模型生成的少数类样本质量明显低于多数类样本。我们观察到,在不平衡数据集上训练的生成模型会低估少数类的代表性。我们提出了一种新颖的技术,即将二元类别标签转换为三元类别标签,通过引入一个少数类和多数类分布重叠的区域作为新类别。我们证明,仅通过这种对训练集的预处理,就可以显著提高多个最先进扩散模型和基于GAN的模型所生成数据的质量。在使用合成数据训练分类器时,我们将重叠类别从训练数据中移除,并解释了其背后提升准确性的原因。我们在四个真实数据集、五种不同的分类器和五种生成模型上进行了广泛的实验,证明我们的方法不仅增强了最先进模型的合成性能,还提升了分类器的性能。
213
热度
PDF
解读
Code-Switching Curriculum Learning for Multilingual Transfer in LLMs
2024年11月04日
大型语言模型(LLM)在各种任务中现在表现出接近人类水平的性能,但由于预训练数据的不平衡,其性能在少数几种资源丰富的语言之后急剧下降。受人类第二语言习得过程,特别是代码转换(即在对话中交替使用语言的做法)的启发,我们提出了代码转换课程学习(CSCL)以增强LLM的跨语言迁移能力。CSCL通过逐步训练模型来模拟人类语言学习的阶段,训练内容包括1)词级别代码转换,2)句子级别代码转换,以及3)单语语料库。以Qwen 2作为基础模型,我们展示了CSCL在提高韩语语言迁移方面的有效性,与单语持续预训练方法相比,取得了显著的性能提升。消融研究表明,词级别和句子级别的代码转换显著增强了跨语言迁移,并且课程学习放大了这些效果。我们还将研究扩展到多种语言,包括日语(资源丰富)和印尼语(资源贫乏),并使用另外两个模型(Gemma 2和Phi 3.5)。我们进一步表明,CSCL减轻了语言资源和安全对齐之间的虚假相关性,提供了一个稳健、高效的框架,以实现更公平的语言迁移。我们观察到,CSCL在资源匮乏的环境中特别有效,因为在这些环境中很难获得高质量的单语语料库用于语言迁移。
118
热度
PDF
解读