Croissant: A Metadata Format for ML-Ready Datasets

2024年03月28日
  • 简介
    数据是机器学习(ML)的关键资源,但是处理数据仍然是一个主要的难点。本文介绍了Croissant,一种元数据格式,用于简化ML工具和框架使用数据的方式。Croissant使数据集更易于发现、可移植和互操作,从而解决了ML数据管理和负责任的AI中的重要挑战。Croissant已经得到了几个流行数据集存储库的支持,跨越了数十万个数据集,准备加载到最流行的ML框架中。
  • 图表
  • 解决问题
    Croissant试图解决ML数据管理和负责任AI中的数据发现、可移植性和互操作性问题。
  • 关键思路
    Croissant是一个元数据格式,使得数据集更易于被ML工具和框架使用,使其更易于发现、可移植和互操作。
  • 其它亮点
    Croissant已经被几个流行的数据集仓库支持,涵盖了数十万个数据集,可以直接加载到最流行的ML框架中。该论文提出的元数据格式可以帮助解决ML数据管理中的重要问题,同时也可以促进负责任AI的发展。
  • 相关研究
    近年来,也有一些相关的研究,如:Databook、DataHub、Dataverse等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论