Automated data processing and feature engineering for deep learning and big data applications: a survey

2024年03月18日
  • 简介
    现代人工智能(AI)的方法旨在设计能够直接从数据中学习的算法。这种方法已经取得了令人瞩目的成果,并在监督式深度学习领域为AI的进步做出了重大贡献。它还简化了机器学习系统的设计,因为学习过程是高度自动化的。然而,在传统的深度学习流程中,并非所有的数据处理任务都被自动化了。在大多数情况下,数据必须在训练之前手动收集、预处理并通过数据增强进一步扩展才能有效。最近,出现了一些特殊的技术来自动化这些任务。数据处理任务的自动化是由于需要利用大量复杂、异构的数据进行机器学习和大数据应用。今天,基于自动化机器学习(AutoML)技术的端到端自动化数据处理系统能够通过自动化所有中间处理阶段,将原始数据转化为大数据任务的有用特征。在这项工作中,我们对深度学习流程中自动化数据处理任务的方法进行了全面的回顾,包括自动化数据预处理——例如数据清理、标记、缺失数据插值和分类数据编码——以及数据增强(包括使用生成式AI方法生成合成数据)和特征工程——具体而言,自动化特征提取、特征构建和特征选择。除了自动化特定的数据处理任务,我们还讨论了使用AutoML方法和工具同时优化机器学习流程的方法。
  • 图表
  • 解决问题
    自动化数据处理在深度学习中的应用
  • 关键思路
    使用自动机器学习技术实现端到端的数据处理和特征工程,优化整个机器学习流程
  • 其它亮点
    论文详细介绍了自动化数据处理在深度学习中的各个环节,包括数据预处理、数据增强、特征工程等,同时讨论了使用AutoML方法和工具优化整个机器学习流程的可行性。实验中使用了多个数据集,同时介绍了多个开源工具和框架。
  • 相关研究
    近期的相关研究包括Automated Machine Learning (AutoML)领域的其他工作,如Auto-Keras、Auto-sklearn、Auto-WEKA等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论