Tabular Data Contrastive Learning via Class-Conditioned and Feature-Correlation Based Augmentation

2024年04月26日
  • 简介
    对比学习是一种模型预训练技术,首先创建原始数据的相似视图,然后鼓励数据及其对应的视图在嵌入空间中靠近。由于直观且有效的领域特定增强技术,对比学习在图像和自然语言数据方面取得了成功。然而,在表格领域中,主要的增强技术是通过交换值来破坏表格条目,这种方法并不稳健或有效。我们提出了一种简单但强大的增强技术改进方法:基于类别身份破坏表格数据。具体来说,当破坏锚定行的特定表格条目时,我们不是在整个表格中均匀地随机采样相同特征列中的值,而是仅从被确定为与锚定行属于同一类别的行中采样。我们假设半监督学习设置,并采用伪标签技术获取所有表格行的类别身份。我们还探索了根据特征相关结构选择要破坏的特征的新颖想法。广泛的实验证明,所提出的方法始终优于传统的表格数据分类任务的破坏方法。我们的代码可在https://github.com/willtop/Tabular-Class-Conditioned-SSL上获得。
  • 图表
  • 解决问题
    该论文旨在改进表格数据的对比学习方法,提出一种基于类别标识的数据扰动方法,并探索基于特征相关性结构选择要扰动的特征。主要解决的问题是在表格领域中,当前主要的数据扰动方法不够稳健和有效。
  • 关键思路
    该论文提出了一种新的数据扰动方法,即基于类别标识的数据扰动,通过在扰动时只从被标识为同一类别的行中采样,从而提高了表格数据对比学习的效果。同时,该论文还探索了基于特征相关性结构选择要扰动的特征,进一步提高了表格数据对比学习的性能。
  • 其它亮点
    论文的实验表明,该方法在表格数据分类任务中表现出了更好的性能。该论文还提供了开源代码,可供其他研究者使用和参考。除此之外,该论文还探索了一些值得继续深入研究的问题,如如何选择更好的特征相关性结构。
  • 相关研究
    在表格数据对比学习领域,还有一些相关的研究,如《Deep Infomax for Clustering on Tabular Data》、《Contrastive Learning for Unsupervised Anomaly Detection in Tabular Data》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论