Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning

简介

从原始数据中学习有效的表示对于深度学习方法的成功至关重要。然而，在表格领域中，从业者通常更喜欢增强原始列特征而不是使用学习到的表示，因为传统的基于树的算法经常优于竞争方法。因此，自动生成候选特征的特征工程方法已被广泛使用。虽然这些方法通常是有效的，但是在定义要搜索的候选特征空间方面仍存在歧义。此外，它们通常仅依赖于验证分数来选择好的特征，忽略了过去实验的有价值的反馈，这些反馈可以为规划未来实验提供信息。为了解决这些缺点，我们提出了一种基于大型语言模型（LLM）的新的表格学习框架，称为具有决策树推理的优化列特征生成器（OCTree）。我们的关键思想是利用LLM的推理能力，找到好的特征生成规则，而不需要手动指定搜索空间，并提供基于语言的推理信息，以强调过去实验的反馈以改进规则。在这里，我们选择决策树作为推理，因为它可以用自然语言解释，有效地传达过去实验的知识（即使用生成的特征训练的预测模型）给LLM。我们的实证结果表明，这种简单的框架可以在各种表格基准测试中一致提高各种预测模型的性能，优于竞争的自动特征工程方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决在表格领域中，特征工程方法自动生成候选特征时，定义搜索空间不明确、仅依靠验证分数选择好的特征而忽略了过去实验的反馈等问题。
关键思路

论文提出了一种新的表格学习框架 OCTree，利用大型语言模型的推理能力，无需手动指定搜索空间即可找到好的特征生成规则，并提供语言推理信息作为过去实验的反馈，以决策树作为推理方式，并将过去实验的知识传递给语言模型。
其它亮点

论文的实验结果表明，OCTree框架在不同的表格基准测试中都能提高各种预测模型的性能，优于其他自动特征工程方法。
相关研究

与该论文相关的研究包括自动特征工程方法，如AutoML、AutoFeat等。

Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning

提问交流

提问交流