Large Language Models Synergize with Automated Machine Learning

简介

最近，由大型语言模型（LLMs）驱动的代码生成变得越来越流行。然而，自动为机器学习（ML）任务生成代码仍然面临重大挑战。本文通过结合LLMs和自动化机器学习（autoML）探索了ML程序合成的限制。具体而言，我们的目标是完全自动化ML工作流程的代码生成过程，从数据准备到建模和后处理，仅利用ML任务的文本描述。为了管理ML程序的长度和多样性，我们建议将每个ML程序分解成更小，可管理的部分。每个部分由LLM分别生成，并仔细考虑它们的兼容性。为了实现该方法，我们设计了一种ML程序测试技术。此外，我们的方法使autoML与之集成。在我们的方法中，autoML用于数值评估和优化LLMs生成的ML程序。LLMs反过来有助于弥合理论，以算法为中心的autoML和实际autoML应用之间的差距。这种相互增强强调了LLMs和autoML在ML程序合成中的协同作用。在各种ML任务的实验中，我们的方法在12个任务中有10个任务的性能优于现有方法，而autoML显着提高了生成的ML程序的性能。在实验中，我们的方法Text-to-ML仅基于ML任务的文本描述实现了整个ML管道的完全自动合成。
图表
解决问题

本文旨在探索结合大型语言模型（LLMs）和自动机器学习（autoML）的程序合成方法，以实现完全自动化的机器学习代码生成，从数据准备到建模和后处理，仅利用机器学习任务的文本描述。
关键思路

本文提出将机器学习程序分解成较小、可管理的部分，每个部分由LLM单独生成，并且与其他部分兼容。同时，结合autoML对生成的程序进行数值评估和优化。
其它亮点

本文的实验结果表明，所提出的方法在12个机器学习任务中的10个任务中优于现有方法。同时，autoML显著提高了生成的机器学习程序的性能。本文的方法名为Text-to-ML，并且提供了开源代码。
相关研究

在这个领域中，最近的相关研究包括：1）Neural Program Synthesis，2）Neural Architecture Search，3）AutoML for Model Selection and Hyperparameter Tuning，4）GANs for Program Synthesis等。

Large Language Models Synergize with Automated Machine Learning

评论