Automated data processing and feature engineering for deep learning and big data applications: a survey

简介

现代人工智能（AI）的方法旨在设计能够直接从数据中学习的算法。这种方法取得了令人瞩目的成果，并在监督式深度学习领域对AI的进展做出了重大贡献。它还简化了机器学习系统的设计，因为学习过程是高度自动化的。然而，在传统的深度学习流水线中，并非所有的数据处理任务都已自动化。在大多数情况下，数据必须在能够用于训练之前手动收集、预处理并通过数据增强进一步扩展。最近，出现了专门用于自动化这些任务的技术。数据处理任务的自动化是为了利用大量复杂、异构的数据进行机器学习和大数据应用。如今，基于自动化机器学习（AutoML）技术的端到端自动化数据处理系统能够通过自动化所有中间处理阶段，将原始数据转换为有用的大数据任务特征。在这项工作中，我们详细介绍了自动化深度学习流水线中数据处理任务的方法，包括自动化数据预处理，如数据清理、标记、缺失数据插补和分类数据编码，以及数据增强（包括使用生成AI方法生成合成数据）和特征工程，具体包括自动特征提取、特征构建和特征选择。除了自动化特定的数据处理任务，我们还讨论了使用AutoML方法和工具同时优化机器学习流水线的所有阶段。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

自动化数据处理在深度学习中的应用

关键思路

使用自动化机器学习（AutoML）技术，自动化数据预处理、数据增强和特征工程等中间处理阶段，从而实现端到端的自动化数据处理系统。

其它亮点

论文综述了自动化数据处理在深度学习中的应用，包括数据预处理、数据增强和特征工程等方面。同时，讨论了使用AutoML方法和工具来优化整个机器学习流程的可能性。

Automated data processing and feature engineering for deep learning and big data applications: a survey

提问交流

提问交流