- 简介新型基础模型的新能力很大程度上要归功于大规模、广泛来源且文档不完整的训练数据集。现有的数据收集方法导致了在记录数据透明度、追踪真实性、验证同意、隐私、代表性、偏见、版权侵权以及整体发展道德和值得信赖的基础模型方面面临的挑战。作为回应,监管机构强调了理解基础模型局限性的训练数据透明度的必要性。基于对基础模型训练数据现状和现有解决方案的大规模分析,我们确定了促进负责任的基础模型开发实践所需的缺失基础设施。我们检查了追踪数据真实性、同意和文档的常见工具的当前缺陷,并概述了决策者、开发者和数据创造者如何通过采用通用数据溯源标准来促进负责任的基础模型开发。
- 图表
- 解决问题如何促进负责任的基础模型开发实践,解决现有数据收集实践中存在的问题,如数据透明性、真实性追踪、同意验证、隐私、代表性、偏见、版权侵犯等?
- 关键思路通过采用通用数据溯源标准,政策制定者、开发人员和数据创建者可以促进负责任的基础模型开发实践,解决现有数据收集实践中存在的问题。
- 其它亮点论文通过大规模分析基础模型训练数据的现状和现有解决方案,识别了促进负责任基础模型开发实践所需的缺失基础设施。论文还详细阐述了追踪数据真实性、同意和文档化的常见工具的现有不足之处。论文提供了一些值得关注的实验设计和数据集,但没有提供开源代码。论文建议采用通用数据溯源标准来促进负责任的基础模型开发实践。
- 最近的相关研究可能包括关于数据透明性、隐私、版权和数据伦理问题的研究。
沙发等你来抢
去评论
评论
沙发等你来抢