随着机器学习 (ML) 研究转向能够执行大量下游任务的大规模模型,对数据集的起源、发展、意图和演变的共同理解对于 ML 模型的负责任和明智的开发变得越来越重要。然而,关于数据集的知识,包括使用和实现,往往分布在团队、个人甚至时间上。

为了解决这个挑战,谷歌发布了Data Cards Playbook,这是一个自助工具包,供各种团队使用其 ML 数据集应对透明度挑战。 Playbook 将以人为本的设计方法应用于文档——从规划透明度策略和定义受众到编写以读者为中心的复杂数据集摘要——以确保文档数据集的可用性和实用性得到很好的理解。 我们已经创建了参与式活动来解决建立数据集透明度工作时遇到的典型障碍,可以将数据透明度扩展到新数据类型的框架,以及研究人员、产品团队和公司可以用来制作反映其组织原则的数据卡的指南。

 

阅读详情

内容中包含的图片若涉及版权问题,请及时与我们联系删除