加州大学伯克利分校的Boffins深入研究了OpenAI的ChatGPT和GPT-4大型语言模型的未披露的深度,并发现他们接受了受版权保护书籍文本的培训。

学者Kent Chang、Mackenzie Cramer、Sandeep Soni和David Bamman在一篇题为“说话,记忆:ChatGPT/GPT-4已知的书籍的考古学”的论文中描述了他们的工作。

研究人员在论文中解释说,我们发现OpenAI模型已经记住了大量受版权保护的材料,并且记忆的程度与这些书的段落出现在网络上的频率有关。

该团队在GitHub上发布了其代码和数据,并且可以在此Google Docs文件中找到已识别的书籍列表。

GPT-4被发现有记忆的标题,如《哈利·波特》儿童读物、奥威尔的《一九八四》、《指环王》三部曲、《饥饿游戏》一书、《银河系漫游指南》、《华氏451度》、《权力的游戏》和《沙丘》等。

作者指出,科幻和奇幻书籍在列表中占主导地位,他们将其归因于这些标题在网络上的受欢迎程度。他们指出,记住特定标题具有下游效果。例如,这些模型对“这篇文章是哪一年发表的?”等提示做出更准确的预测。当他们记住这本书时。

该模型熟悉科幻小说和奇幻小说的另一个后果是,ChatGPT对其他流派作品的了解较少。正如该论文所观察到的,它“对全球英语文本作品、黑皮书互动项目和黑人核心小组美国图书馆协会奖得主的作品知之甚少。”

通过推特,加州大学伯克利分校信息学院的合著者之一、副教授David Bamman这样总结了这篇论文:“要点:开放模型是好的;流行的文本可能不是模型性能的良好晴雨表;由于对科幻/幻想的偏见,我们应该考虑谁的叙事经验在这些模型中编码,以及它如何影响其他行为。”

研究人员没有声称ChatGPT或它所基于的模型包含引用书籍的全文——法学硕士不会逐字存储文本。相反,他们进行了一项名为“名称cloze”的测试,旨在预测40-60个令牌(一个令牌相当于大约四个文本字符)中的单个名称,该字符没有其他命名实体。这个想法是,通过测试表明模型已经记住了相关文本。

作者在论文中解释说,ChatGPT和GPT-4背后的数据在OpenAI之外基本上是不可知的。“在任何时候,我们都不会访问或试图访问这些模型背后的真实训练数据,或系统的任何底层组件。我们的工作进行概率推断,以衡量这些模型对一套书籍的熟悉程度,但它们是否真正存在于这些模型的训练数据中的问题是无法回答的。”

为了使这些问题值得回答,作者主张使用公共培训数据——因此模型行为更加透明。他们承担了这个项目,以了解这些模型记住了什么,因为模型在分析他们用于培训的文学文本时表现不同。

人工智能研究员兼Hugging Face的首席伦理科学家Margaret Mitchell告诉The Register,数据管理在机器学习中仍然非常不成熟。

“‘不要测试你的训练数据’是机器学习中的一句常见格言,但需要仔细记录数据;然而,强大的数据记录不是机器学习文化的一部分。我希望这项工作将有助于进一步推进负责任的数据策划的最新进展。”

伯克利计算机科学家较少关注记忆文本的版权影响,而更关注这些模型的黑匣子性质——OpenAI不披露用于训练它们的数据——以及这如何影响文本分析的有效性。

但版权影响可能无法避免——特别是如果基于这些模型的文本生成应用程序产生的段落与他们摄入的受版权保护的文本基本相似或相同。

自由之地,诉讼之家

加利福尼亚州圣克拉拉大学法律系教授Tyler Ochoa告诉The Register,他完全希望看到对生成文本的大型语言模型的制造商提起诉讼,包括OpenAI、谷歌等。

Ochoa说,人工智能文本生成的版权问题与人工智能图像生成的问题完全相同。首先:复制大量文本或图像用于训练模型合理使用吗?他说,答案可能是肯定的。

第二:如果模型产生的输出与输入太相似——论文所说的“记忆”——这是侵犯版权吗?他说,答案几乎肯定是肯定的。

第三:如果AI文本生成器的输出不是现有文本的副本,它是否受版权保护?

Ochoa说,根据现行法律,答案是否定的——因为美国版权法要求人类的创造力,尽管一些国家会不同意,并将保护人工智能生成的作品。然而,他补充说,选择、安排和修改人工智能模型输出等活动使版权保护更合理。

Ochoa说,到目前为止,我们已经看到了关于问题一和三的诉讼。“到目前为止,一项诉讼涉及人工智能图像生成模型,但针对人工智能文本生成模型的诉讼是不可避免的。

“我们尚未看到任何涉及问题二的诉讼。[来自加州大学伯克利分校研究人员]的论文表明,这种相似性是可能的;在我看来,当这种情况发生时,会发生诉讼,几乎肯定会构成版权侵权。”

Ochoa补充说:“模型的所有者是否承担责任,还是使用模型的人承担责任,或两者兼而有之,取决于用户必须在多大程度上提示或鼓励模型实现结果。”

OpenAI没有回应置评请求。它甚至没有一个聊天机器人?