- 简介数据标准化是数据科学生命周期中至关重要的一部分。虽然像Pandas这样的工具提供了强大的功能,但是它们的复杂性以及需要为不同列类型定制代码的手动工作带来了重大挑战。尽管像ChatGPT这样的大型语言模型已经展示了通过自然语言理解和代码生成自动化此过程的潜力,但它仍需要专业级编程知识和持续的交互以进行及时的改进。为了解决这些挑战,我们的关键思想是提出一个Python库,具有声明性的统一API,用于标准化列类型,通过简洁的API调用简化LLM的代码生成。我们首先提出了Dataprep.Clean,它是Dataprep库的一个组件,通过一行代码实现了特定列类型的标准化,从而显著降低了复杂性。然后我们介绍了CleanAgent框架,它集成了Dataprep.Clean和基于LLM的代理,以自动化数据标准化过程。使用CleanAgent,数据科学家只需要提供他们的要求一次,就可以实现无需手动干预的自动标准化过程。
-
- 图表
- 解决问题论文旨在解决数据科学生命周期中数据标准化的复杂性和手动工作量的问题,提出了一种Python库和框架来自动化数据标准化过程。
- 关键思路提出了Dataprep.Clean和CleanAgent框架,分别通过声明式API和LLM代理自动化数据标准化过程,大大降低了复杂性和手动工作量。
- 其它亮点Dataprep.Clean通过一行代码实现了特定列类型的标准化;CleanAgent框架结合了Dataprep.Clean和LLM代理,提供了自动化标准化过程;实验使用了多个数据集,并提供了开源代码。
- 该论文提到了Pandas等工具的局限性,并与其他基于LLM的自动化数据标准化方法进行了比较,如NL2Code和Tab2Code。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流