- 简介对比学习是一种模型预训练技术,首先创建原始数据的相似视图,然后鼓励数据及其对应的视图在嵌入空间中靠近。由于直观且有效的领域特定增强技术,对比学习在图像和自然语言数据方面取得了成功。然而,在表格领域中,主要的增强技术是通过交换值来破坏表格条目,这种方法并不稳健或有效。我们提出了一种简单但强大的增强技术改进方法:基于类别身份破坏表格数据。具体来说,当破坏锚定行的特定表格条目时,我们不是在整个表格中均匀地随机采样相同特征列中的值,而是仅从被确定为与锚定行属于同一类别的行中采样。我们假设半监督学习设置,并采用伪标签技术获取所有表格行的类别身份。我们还探索了根据特征相关结构选择要破坏的特征的新颖想法。广泛的实验证明,所提出的方法始终优于传统的表格数据分类任务的破坏方法。我们的代码可在https://github.com/willtop/Tabular-Class-Conditioned-SSL上获得。
- 图表
- 解决问题该论文旨在改进表格数据的对比学习方法,提出一种基于类别标识的数据扰动方法,并探索基于特征相关性结构选择要扰动的特征。主要解决的问题是在表格领域中,当前主要的数据扰动方法不够稳健和有效。
- 关键思路该论文提出了一种新的数据扰动方法,即基于类别标识的数据扰动,通过在扰动时只从被标识为同一类别的行中采样,从而提高了表格数据对比学习的效果。同时,该论文还探索了基于特征相关性结构选择要扰动的特征,进一步提高了表格数据对比学习的性能。
- 其它亮点论文的实验表明,该方法在表格数据分类任务中表现出了更好的性能。该论文还提供了开源代码,可供其他研究者使用和参考。除此之外,该论文还探索了一些值得继续深入研究的问题,如如何选择更好的特征相关性结构。
- 在表格数据对比学习领域,还有一些相关的研究,如《Deep Infomax for Clustering on Tabular Data》、《Contrastive Learning for Unsupervised Anomaly Detection in Tabular Data》等。
沙发等你来抢
去评论
评论
沙发等你来抢