NEW

LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence

Xingxuan Zhang ,

Gang Ren ,

Han Yu ,

Hao Yuan ,

Hui Wang ,

Jiansheng Li ,

Jiayun Wu ,

Lang Mo ,

Li Mao ,

Mingchao Hao ,

Ningbo Dai ,

Renzhe Xu ,

Shuyang Li ,

Tianyang Zhang ,

Yue He ,

Yuanrui Wang ,

Yunjia Zhang ,

Zijing Xu ,

Dongzhe Li ,

Fang Gao ,

Hao Zou ,

Jiandong Liu ,

Jiashuo Liu ,

Jiawei Xu ,

Kaijie Cheng ,

Kehan Li ,

Linjun Zhou ,

Qing Li ,

Shaohua Fan ,

Xiaoyu Lin ,

Xinyan Han ,

Xuanyue Li ,

Yan Lu ,

Yuan Xue ,

Yuanyuan Jiang ,

Zimu Wang ,

Zhenlei Wang ,

Peng Cui

2025年09月03日

简介

我们认为，要实现通用智能的进步，需要基于语言、物理世界和结构化数据的互补性基础模型。本报告介绍了LimiX，这是我们大型结构化数据模型（LDMs）系列中的首个成果。LimiX将结构化数据视为变量与缺失性（missingness）的联合分布，因此通过基于查询的条件预测，一个模型即可胜任广泛的表格任务。LimiX采用带掩码的联合分布建模进行预训练，其训练目标具有情景化和上下文依赖的特点：模型会根据特定数据集的上下文信息，预测用户指定的查询子集，从而在推理阶段实现快速、无需训练的适应能力。我们在10个大型结构化数据基准任务上对LimiX进行了全面评估，涵盖样本量、特征维度、类别数量、类别型与数值型特征比例、缺失值比例以及样本与特征比等多种复杂场景。实验表明，仅使用一个模型和统一的接口，LimiX在分类、回归、缺失值填补和数据生成等多种任务中始终优于包括梯度提升树、深度表格网络、近期的表格基础模型以及自动化集成方法在内的多种强大基线方法，且优势显著，同时无需针对不同任务设计专门的模型架构或进行单独训练。所有LimiX模型均已按照Apache 2.0协议公开发布，供公众使用。
作者讲解·1
- 讲解视频
- 相关报道(1)
解决问题

论文旨在解决结构化数据领域缺乏统一基础模型的问题，即如何通过一个通用模型处理多种表格任务（如分类、回归、缺失值填补、数据生成等），而无需为每个任务单独设计架构或进行专门训练。
关键思路

LimiX的核心思想是将结构化数据建模为变量与缺失性（missingness）的联合分布，并通过基于查询的条件预测实现多种任务的统一处理。其创新点在于采用掩码联合分布建模和情境条件目标函数，使得模型能够在推理阶段实现无需再训练的任务自适应。
其它亮点

1. LimiX是首个基于结构化数据的大模型（LDM），支持多种表格任务通过统一接口处理。 2. 模型在10个大型结构化数据基准上进行全面评估，涵盖广泛的任务特征（如样本量、特征维度、缺失率等）。 3. LimiX在多个任务上显著优于梯度提升树、深度表格网络、最新表格基础模型及自动化集成方法。 4. 模型支持训练-free的快速任务适应，无需针对特定任务微调。 5. 所有LimiX模型均开源，采用Apache 2.0许可协议。
相关研究

1. Foundation Models for Tabular Data: A Survey (2023) 2. TabPFN: A Transformer-Based Tabular Foundation Model for Small Tabular Datasets (2023) 3. SAINT: Self-Attention and Intersample Attention Transformer for Tabular Data (2022) 4. NODE-DINO: Deep Interpretable Neural Decision Trees with Self-Supervised Pretraining (2023) 5. Deep Learning for Tabular Data: A Survey (2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问