标题:Data-centric Artificial Intelligence: A Survey

链接https://arxiv.org/abs/2303.10158v1 

作者:Daochen Zha, Zaid Pervaiz Bhat, Kwei-Herng Lai, Fan Yang, Zhimeng Jiang, Shaochen Zhong, Xia Hu

单位:德克萨斯 A&M 大学,莱斯大学

摘要

人工智能几乎在每个领域都产生了深远的影响。它的巨大成功的一个重要推动因素是其可以获得用于构建机器学习模型的丰富和高质量的数据。最近,数据在 AI 中的作用被显著放大,催生了以数据为中心的人工智能 (data-centric AI)的新兴概念。研究人员和从业者的注意已逐渐从推进模型设计转向了提高数据的质量和数量上。在这次调查中,作者讨论了以数据为中心的人工智能的必要性,然后对以数据为中心的三个一般目标(训练数据开发、推理数据开发和数据维护)及其代表性方法进行了整体的审视。作者还从自动化和协作的角度组织了现有的文献,讨论了可能面临的挑战,并列出了各种任务的基准。作者相信,本研究是第一次提供数据生命周期不同阶段任务范围的全局视角的全面调查。作者希望它能帮助读者有效地掌握该领域的大致情况,并为他们配备相应的技术和进一步的研究思路,以系统地设计数据,以构建人工智能系统。

https://github.com/daochenzha/data-centric-AI  

将定期更新以数据为中心的 AI 资源的配套列表。