Tabular Data Contrastive Learning via Class-Conditioned and Feature-Correlation Based Augmentation

向作者提问

NEW

简介

对比学习是一种模型预训练技术，首先创建原始数据的相似视图，然后鼓励数据及其对应的视图在嵌入空间中靠近。由于直观且有效的领域特定增强技术，对比学习在图像和自然语言数据方面取得了成功。然而，在表格领域中，主要的增强技术是通过交换值来破坏表格条目，这种方法并不稳健或有效。我们提出了一种简单但强大的增强技术改进方法：基于类别身份破坏表格数据。具体来说，当破坏锚定行的特定表格条目时，我们不是在整个表格中均匀地随机采样相同特征列中的值，而是仅从被确定为与锚定行属于同一类别的行中采样。我们假设半监督学习设置，并采用伪标签技术获取所有表格行的类别身份。我们还探索了根据特征相关结构选择要破坏的特征的新颖想法。广泛的实验证明，所提出的方法始终优于传统的表格数据分类任务的破坏方法。我们的代码可在https://github.com/willtop/Tabular-Class-Conditioned-SSL上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在改进表格数据的对比学习方法，提出一种基于类别标识的数据扰动方法，并探索基于特征相关性结构选择要扰动的特征。主要解决的问题是在表格领域中，当前主要的数据扰动方法不够稳健和有效。
关键思路

该论文提出了一种新的数据扰动方法，即基于类别标识的数据扰动，通过在扰动时只从被标识为同一类别的行中采样，从而提高了表格数据对比学习的效果。同时，该论文还探索了基于特征相关性结构选择要扰动的特征，进一步提高了表格数据对比学习的性能。
其它亮点

论文的实验表明，该方法在表格数据分类任务中表现出了更好的性能。该论文还提供了开源代码，可供其他研究者使用和参考。除此之外，该论文还探索了一些值得继续深入研究的问题，如如何选择更好的特征相关性结构。
相关研究

在表格数据对比学习领域，还有一些相关的研究，如《Deep Infomax for Clustering on Tabular Data》、《Contrastive Learning for Unsupervised Anomaly Detection in Tabular Data》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问