The AI Community Building the Future? A Quantitative Analysis of Development Activity on Hugging Face Hub

2024年05月20日
  • 简介
    开源开发者已成为人工智能(AI)政治经济中的关键角色,开放模型开发被认为是封闭源AI开发的一种替代方案。然而,我们对于开源AI中的协作实践仍有有限的了解。本文通过对Hugging Face(HF)Hub上开发活动的三部分定量分析来填补这一空白,HF是一个流行的构建、分享和展示模型的平台。首先,我们发现348,181个模型、65,761个数据集和156,642个空间仓库中的各种类型活动表现为右偏分布。活动在仓库之间极度不平衡;例如,超过70%的模型没有下载,而1%的模型占据了99%的下载量。其次,我们分析了模型协作的社交网络结构的快照,发现社区具有核心-边缘结构,核心是多产开发者,大多数是孤立开发者(89%)。去除孤立开发者后,无论开发者的网络位置如何,协作都具有高度的互惠性。第三,我们通过模型在空间中的使用情况来研究模型采用情况,发现少数由少数公司开发的模型在HF Hub上被广泛使用。总体而言,我们发现HF Hub上的各种类型活动都表现为帕累托分布,与先前关于GitHub等平台上OSS开发模式的观察结果一致。最后,我们讨论了这些发现的影响,并为(开源)AI研究人员、开发者和政策制定者提出建议。
  • 图表
  • 解决问题
    研究开源AI中的协作实践,了解Hugging Face平台上的开发活动情况
  • 关键思路
    通过对Hugging Face平台上的348,181个模型、65,761个数据集和156,642个空间仓库的不同类型活动进行定量分析,发现活动呈现右偏分布,且极度不平衡,少数模型和公司占据了绝大部分活动,社交网络结构呈现核心-边缘结构,合作高度互惠,但大部分开发者处于孤立状态
  • 其它亮点
    论文对开源AI的协作实践进行了研究,发现了Pareto分布和核心-边缘结构等有趣现象,可以为开源AI研究者、开发者和决策者提供启示和建议
  • 相关研究
    近期相关研究包括:《GitHub上的开源软件社区:实践、问题和建议》、《开源软件协作实践:GitHub上的案例研究》等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论