- 简介这篇文章讨论了不同表格中的表格数据由于特征定义和类型的不同以及复杂的特征之间和特征和目标之间的关系而表现出显著的差异。交叉数据集预训练是一种学习上游数据中可重用模式以支持下游任务的方法,在各个领域都取得了显著的成功。然而,在应用于表格数据预测时,这种方法面临着挑战,因为不同表格数据集(表格)之间的可重用模式有限,同时精细调整所需的表格数据也很少。本研究通过引入一种跨表格预训练 Transformer,即 XTFormer,为多样的下游表格预测任务填补了这一空白。我们的方法是在预训练中通过建立一个“元函数”空间来预训练 XTFormer,该空间包含了所有潜在的特征-目标映射。在预训练中,从预训练表格数据集中提取出多种潜在映射,并将其嵌入到“元函数”空间中,然后通过指定的坐标定位方法从“元函数”空间中提取适合下游任务的映射。实验表明,在190个下游表格预测任务中,我们的跨表格预训练 XTFormer 在137个任务(72%)上都胜过了 XGBoost 和 Catboost,并且在144个任务(76%)和162个任务(85%)上都超过了代表性的深度学习模型 FT-Transformer 和表格预训练方法 XTab。
- 图表
- 解决问题本文旨在通过引入跨表预训练Transformer(XTFormer)来解决跨数据集预训练在表格数据预测中面临的挑战,如表格数据特征定义和类型的多样性,以及跨特征和特征-目标之间的复杂关系。
- 关键思路本文的关键思路是通过预训练XTFormer建立一个“元函数”空间,该空间包含所有潜在的特征-目标映射,并通过指定的坐标定位方法从“元函数”空间中提取适合下游任务的映射。
- 其它亮点本文在190个下游表格预测任务中,XTFormer在137个任务上均胜过XGBoost和Catboost,在144个任务上胜过FT-Transformer,在162个任务上胜过XTab。实验结果表明,XTFormer在表格预测任务中具有很高的性能。
- 在这个领域中,最近的相关研究包括XGBoost、Catboost、FT-Transformer和XTab等模型。
沙发等你来抢
去评论
评论
沙发等你来抢