- 简介通用人工智能系统是建立在公共网络数据的大量基础上,这些数据被组合成语料库,如C4、RefinedWeb和Dolma。据我们所知,我们进行了第一次大规模的纵向审计,审计的对象是用于人工智能训练语料库的网络域的同意协议。我们审计了14,000个网络域,提供了一个广泛的可爬取的网络数据视图,以及编码的数据使用偏好如何随时间变化。我们观察到限制使用的人工智能特定条款的增加,AI开发人员限制方面的差异,以及网站在其服务条款和robots.txt中表达意图的一般不一致性。我们将这些诊断为无效的网络协议的症状,这些协议并不是为了应对互联网被广泛重新用于人工智能而设计的。我们的纵向分析显示,在一年内(2023-2024),来自网络来源的数据限制迅速增加,导致C4中约5%+的所有标记或C4中最活跃的、关键的来源的28%+完全限制使用。对于服务条款爬取限制,现在有45%的C4被限制。如果这些限制得到尊重或执行,它们将迅速影响通用人工智能系统的多样性、新鲜度和规模定律。我们希望说明数据同意方面的新兴危机,无论是对开发人员还是创作者。开放网络的大部分被封闭将影响不仅商业人工智能,还将影响非商业人工智能和学术研究。
-
- 图表
- 解决问题解决数据共享和使用方面的问题,特别是在人工智能领域
- 关键思路通过对14,000个网站的调查,发现网站的数据使用协议无法有效应对人工智能时代的数据共享和使用问题,提出了一些解决方案
- 其它亮点论文提出了一种大规模、长期的数据共享和使用协议审核方法,发现了当前网站数据使用协议的不足之处,说明了这种不足之处对人工智能的影响,提供了一些解决方案。实验使用了C4、RefinedWeb和Dolma等数据集,发现了一些新的数据使用限制,这些限制正在影响人工智能系统的多样性、新鲜度和规模
- 最近的相关研究主要集中在数据隐私和安全方面,例如《数据隐私保护技术综述》、《数据隐私保护技术研究进展》等
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流