- 简介深度网络学习优越表示的能力取决于利用适当的归纳偏差,考虑数据集的固有属性。在表格领域,有效地处理异构特征(包括分类和数值特征)以及掌握类似分段常数函数的不规则函数至关重要。为了解决自监督学习框架中的挑战,我们提出了一种基于经典分箱方法的新的预训练任务。这个想法很简单:重构箱的索引(包括顺序或类别),而不是原始值。这个预训练任务为编码器提供了一个归纳偏差,以捕捉不规则的依赖关系,将连续输入映射到离散的箱中,并通过将所有特征设置为类别类型目标来减轻特征的异质性。我们的实证研究证实了分箱的几个优点:捕捉不规则函数,与编码器架构和其他修改兼容,将所有特征标准化为相等的集合,将特征中相似的值分组,并提供排序信息。对各种表格数据集的全面评估证实,我们的方法在广泛的下游任务中持续提高了表格表示学习的性能。代码可在https://github.com/kyungeun-lee/tabularbinning中获取。
- 解决问题本文旨在解决表格数据领域中深度学习算法的特征处理问题,提出了一种基于分箱方法的自监督学习预训练任务,以提高表格表示学习的性能。
- 关键思路本文的关键思路是通过自监督学习的方式,将连续型特征转化为分箱特征,以捕捉特征之间的非线性依赖关系,并提高模型对异构特征的处理能力。
- 其它亮点本文的实验结果表明,所提出的基于分箱方法的自监督学习预训练任务可以显著提高模型的性能,具有较好的通用性和可解释性。作者还提供了开源代码和多个数据集,方便其他研究者进行复现和进一步研究。
- 在表格数据领域的相关研究中,有一些研究也提出了基于自监督学习的预训练方法,如DeepInsight和DPT等。此外,还有一些研究关注于特征处理和表示学习,如CatBoost和TabNet等。
沙发等你来抢
去评论
评论
沙发等你来抢