LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence

2025年09月03日
  • 简介
    我们认为,要实现通用智能的进步,需要基于语言、物理世界和结构化数据的互补性基础模型。本报告介绍了LimiX,这是我们大型结构化数据模型(LDMs)系列中的首个成果。LimiX将结构化数据视为变量与缺失性(missingness)的联合分布,因此通过基于查询的条件预测,一个模型即可胜任广泛的表格任务。LimiX采用带掩码的联合分布建模进行预训练,其训练目标具有情景化和上下文依赖的特点:模型会根据特定数据集的上下文信息,预测用户指定的查询子集,从而在推理阶段实现快速、无需训练的适应能力。我们在10个大型结构化数据基准任务上对LimiX进行了全面评估,涵盖样本量、特征维度、类别数量、类别型与数值型特征比例、缺失值比例以及样本与特征比等多种复杂场景。实验表明,仅使用一个模型和统一的接口,LimiX在分类、回归、缺失值填补和数据生成等多种任务中始终优于包括梯度提升树、深度表格网络、近期的表格基础模型以及自动化集成方法在内的多种强大基线方法,且优势显著,同时无需针对不同任务设计专门的模型架构或进行单独训练。所有LimiX模型均已按照Apache 2.0协议公开发布,供公众使用。
  • 作者讲解·1
  • 解决问题
    论文旨在解决结构化数据领域缺乏统一基础模型的问题,即如何通过一个通用模型处理多种表格任务(如分类、回归、缺失值填补、数据生成等),而无需为每个任务单独设计架构或进行专门训练。
  • 关键思路
    LimiX的核心思想是将结构化数据建模为变量与缺失性(missingness)的联合分布,并通过基于查询的条件预测实现多种任务的统一处理。其创新点在于采用掩码联合分布建模和情境条件目标函数,使得模型能够在推理阶段实现无需再训练的任务自适应。
  • 其它亮点
    1. LimiX是首个基于结构化数据的大模型(LDM),支持多种表格任务通过统一接口处理。 2. 模型在10个大型结构化数据基准上进行全面评估,涵盖广泛的任务特征(如样本量、特征维度、缺失率等)。 3. LimiX在多个任务上显著优于梯度提升树、深度表格网络、最新表格基础模型及自动化集成方法。 4. 模型支持训练-free的快速任务适应,无需针对特定任务微调。 5. 所有LimiX模型均开源,采用Apache 2.0许可协议。
  • 相关研究
    1. Foundation Models for Tabular Data: A Survey (2023) 2. TabPFN: A Transformer-Based Tabular Foundation Model for Small Tabular Datasets (2023) 3. SAINT: Self-Attention and Intersample Attention Transformer for Tabular Data (2022) 4. NODE-DINO: Deep Interpretable Neural Decision Trees with Self-Supervised Pretraining (2023) 5. Deep Learning for Tabular Data: A Survey (2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问