Data Shapley in One Training Run

2024年06月16日
  • 简介
    生成式人工智能系统通过对大型数据集的训练,可以生成新的文本、图像、视频和其他媒体。人们越来越担心这种系统可能会侵犯训练数据贡献者的版权利益。为了解决生成式人工智能的版权挑战,我们提出了一个框架,按照版权所有者对AI生成内容的贡献比例进行补偿。贡献度量是通过利用现代生成式AI模型的概率性质,并使用经济合作博弈理论的技术来定量确定的。该框架可以建立一个平台,使AI开发人员受益于高质量的训练数据,从而提高模型性能。同时,版权所有者获得公平的补偿,推动继续提供用于生成模型训练的相关数据。实验表明,我们的框架成功地识别了艺术品生成中使用的最相关数据源,确保版权所有者之间的收益公平可解释分配。
  • 图表
  • 解决问题
    解决版权问题,如何为训练数据的贡献者提供公平的补偿?
  • 关键思路
    提出一种基于概率和合作博弈理论的框架,通过量化贡献度来为版权所有者提供公平的补偿,同时提高AI模型的性能。
  • 其它亮点
    论文的框架成功识别了艺术生成中最相关的数据源,确保版权所有者之间的收益分配是公平且可解释的。实验结果表明,该框架能够为AI开发者提供高质量的训练数据,同时为版权所有者提供公平的补偿。
  • 相关研究
    最近的相关研究包括: 1. Learning to Generate Images with Perceptual Similarity Metrics 2. Image Generation from Sketch Constraint Using Contextual GAN 3. Generative Adversarial Text to Image Synthesis
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论