
新智元报道

新智元报道
【新智元导读】今天,纽约时报对OpenAI和微软正式提起诉讼,指控其未经授权就使用纽约时报内容训练人工智能模型。此案可能是人工智能使用知识版权纠纷的分水岭。
今天,OpenAI和微软正式被《纽约时报》起诉!索赔金额,达到了数十亿美元。
指控内容是,OpenAI和微软未经许可,就使用纽约时报的数百万篇文章来训练GPT模型,创建包括ChatGPT和Copilot之类的AI产品。
并且,要求销毁「所有包含纽约时报作品的GPT或其他大语言模型和训练集」。
酝酿了几个月,该来的终于来了。
此案涉及到的,是AI技术和版权法之间的复杂关系。大模型爆火之后,业界一直未能有明确的立法,对于AI侵犯版权给出界定。
纽约时报打响的这一炮,可以说是迄今为止规模最大、最具有代表性和轰动性的案例。在整个生成式AI历史上,这必定是一件具有重大意义的事件,标志着人工智能和版权的分水岭。
起诉文件中,《纽约时报》的关键争议之一是ChatGPT训练权重最大的数据集——公共爬虫网站Common Crawl。其中2019年数据快照中,NYT的内容占比1亿个token。
纽约时报甩出的证据,让OpenAI哑口无言。
左边是GPT-4输出的句子,右边是纽约时报的原文,红色是重叠的部分。这种程度的逐字抄袭,简直是让人倒吸一口凉气。
OpenAI这一关,怕是难过了。
GPT-4被曝照搬原文
起诉书明确提出OpenAI侵犯版权的指控,并强调了《纽约时报》的文章和ChatGPT输出内容之间高度相似性。
「被告试图搭纽约时报对新闻业巨额投资的便车,无偿使用纽约时报的内容来创造它的替代品,并从中窃取读者。」
文件中,NYT提供了许多关键事实。比如,NYT是Common Crawl中用于训练GPT的最大的专有数据集。
从下表中,可以看出有1750亿参数的GPT-3训练数据中,大部分的数据集都来自Common Crawl,所占权重高达60%。
下图中,是由501非营利组织Common Crawl提供的「网络副本」。
在Common Crawl 2019年快照的过滤英语子集中,域名www.nytimes.com是代表度最高的专有来源(总体排名第三,仅次于维基百科和美国专利文件数据库),占1亿个token。
具体来说,Common Crawl数据集包括至少1600万条来自《纽约时报》旗下的新闻网站(News)、烹饪程序Cooking、评论网站Wirecutter,体育新闻网站(The Athletic),以及超过6600万条来自NYT的内容记录。
OpenAl自己也承认,与其他低质量来源的内容相比,NYT在内的高质量内容对GPT模型的训练更为重要,更有价值。
NYT指出,GPT-4吐出与纽约时报文章内容大部分一致案例,足以证明OpenAI滥用自己的数据。
比如,前面提到的如下这个案例,是《纽约时报》在2019年发表了一系列五篇关于约市出租车行业的掠夺性借贷的文章,并获得了普利策奖。
这项为期18个月的调查,包括600次采访、100多次信息公开申请,大规模数据分析以及数千页的内部银行记录,以及其他文件审查。
而OpenAI在这些内容的创作中没有参与,只是用很少的提示,就直接输出大部分内容。
还有如下这篇报道,是NYT在2012年联系了数百位现任和前任苹果公司高管,最终从60多位苹果公司内部人士,获得了苹果和其他科技公司的外包如何改变了全球经济的信息。
同样,GPT-4复制了这些内容,并能逐字背诵其中的大部分内容。




纽约时报:我报道我自己
就在今天,纽约时报自己也写了一篇文章报道此事,题为《纽约时报起诉OpenAI和微软使用受版权保护的作品》。 
纽约时报记者表示,自家媒体「在未经授权使用已发表作品训练AI技术日益激烈的法律斗争中,开辟了一条新战线」。 的确,纽约时报是第一家就版权问题起诉ChatGPT平台的美国主流媒体机构。 同时,它还呼吁这些公司销毁所有使用纽约时报版权材料的聊天机器人模型和训练数据。 早在今年4月,纽约时报就曾与微软和OpenAI进行接触,表达了对其知识产权使用的担忧,并且探索友好的解决方案,以建立商业协议和技术护栏。但谈判并未达成任何解决方案。 起诉书中也指出,知识版权问题可能也是引发OpenAI宫斗的导火索,因为前董事会成员Helen Toner曾经在一篇论文中提过这个问题,随后Altman与她就此发生了争执。 
OpenAI发言人表示,公司一直在推进与纽约时报的洽谈,对于这起诉讼感到惊讶和失望。 我们尊重内容创作者和所有者的权利,并致力于与他们合作,确保他们从人工智能技术和新的收入模式中受益。 我们希望能找到一种互惠互利的合作方式,就像我们与许多其他出版商所达成的合作。
网友热议


网友热议










Midjourney吐出「原图」?
不仅仅是OpenAI、微软,就连最强的AI作图神器Midjourney也将在未来面临一大波的起诉。 Midjourney V6升级后惊艳了全网,但同时有人发现,其输出的图片完全和好莱坞等电影剧照毫无差别。 曾为漫威工作的插画家兼电影概念艺术家Reid Southen表示,只需要15分钟,就能找到Midjourney侵犯版权和剽窃的证据。 如下的图片中,可以看出生成的图像与电影原作非常接近,仅在镜头角度或姿势等方面存在细微差别。 
他还制作了一段视频,展示了自己使用Midjourney V6进行的剽窃实验。 
因为他发表的评论,Southen已经被踢出了Midjourney Discord小组。 据Southen表示,AI软件可以完全复制受版权保护的知识产权,并且可以创作无限的衍生品。 艺术家将在同一市场上与自己的作品竞争。当网上50%的漫威作品最终都是人工智能的山寨品时,品牌形象问题和消费者的困惑又将如何解决? 
《蒙娜丽莎》这样的经典艺术品,只提供两个字的提示,就能完全复刻原图。 而且在这种情况下,这种行为并不会在法律上被判为“剽窃”,因为《蒙娜丽莎》的年代久远,已经属于公有版权。 
2019年由托德·菲利普斯执导的电影「小丑」中的画面,也被Midjourney V6「拿来即用」。 
这两张图如此相似,不得不让人怀疑,这似乎就是在训练数据中微调之后的版本。 而它们的不同之处,在于灯光和色彩。 
矩阵中的基努,也和原片几乎一毛一样。 
Midjourney V6甚至可以复制任何动画风格。 
小黄人、瑞克和莫迪、巴斯光年等等,完全逼真全现。 
为了最大限度地提高性能,新模型可能会在相同的数据上反复强化训练,导致输出结果与训练数据几乎完全相同。 这就是所谓的「过拟合」,此前研究表明这种情况可能会发生。ChatGPT也会出现文本过拟合的迹象。 全新的V6模型很可能是一枚重磅炸弹。目前,Midjourney已经卷入了至少一起诉讼。 以后网上这些画面究竟是原动画还是AI生成,恐怕没人能分得清了。












内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢