近日,Geniverse的联合创始人哈维尔·艾德米发文《迈向可持续的生成式人工智能革命——面对成长的阵痛:如何驾驭超潜意识的狂野新时代》,从基本技术原理讲起,叙述了生成式人工智能的发展以及作者对该领域的理解,现将原文整理如下。

原文链接:

https://towardsdatascience.com/towards-sustainable-generative-ai-revolution-a9786de586cb

不可阻挡的生成性人工智能革命正在拉伸人类的创造力。通过使用文本和其他类型的提示,人们使用这项技术来生成令人惊叹的图像、视频、3D 形状、VR 环境等。然而,从在世艺术家的权利到艺术竞赛、艺术平台、库存图书馆等中人工智能一代的存在,各种问题开始出现成长的烦恼。

我是这场革命开始时推出的首批生成 AI 平台之一(Geniverse)的联合创始人。很长一段时间以来,我也是一名多学科艺术家。

作为在这两个领域(生成式人工智能和艺术)都非常活跃的人,我打算反思这些问题中涉及的许多角度和观点。

不过,首先,我们将一起踏上一段有趣的旅程,从基本原理回顾这项令人兴奋的技术的本质,将其与人类创造力以及创意和艺术家的思想联系起来。

然后,我们将探索这场革命当前状态的好、棘手和大象。最后,我将 反思我们所有人如何为超越这些快节奏的初始阶段而走向更可持续的情景做出贡献。

系好安全带,在本文中,我们 将从关于人工智能的隐喻转向潜在空间、艺术家的思想、智能生成环境和其他未来场景、创意者的权利、内容真实性倡议 (CAI) 标准等等. 让我们开始。

让我们用一个简单的 比喻来探索生成式人工智能革命带来了什么,以及它对创意人员、艺术家和全人类的意义。

曾几何时,你坠入了生命的海洋。这是一片浩瀚的海洋,一片信息的海洋。

让我们想象一下,你是由两个视角或部分组成的:你的潜意识有意识的。让我们把你的潜意识想象成一个厨房锅,漂浮在信息的海洋上。

你在这片海洋上的首要任务是生存,并希望茁壮成长。为此,您需要信息。因此,您希望将足够优质的原料带入您的锅中,并结合和重新组合这些原料,以产生有助于您实现目标的知识和想法。

在你的潜意识罐上方,有一个弥漫的神秘闪亮球体,代表我们的意识(我们仍然知之甚少)。

所以,你来了。漂浮在生命的海洋上,你的神秘意识有时会为你潜意识锅中发生的烹饪过程提供方向。

一直以来,潜意识都在不断地组合、混合和重新混合通过我们的感官到达它的各种成分(信息)。

有时,这些组合可能会成为新想法的种子。打个比方,我们可以想象烹饪过程中出现的脆弱、微妙的气泡,从潜意识上升到意识。而且,如果我们的头脑中有空间,如果它们没有充满噪音,那么我们可能会感知到那些脆弱的气泡,并且:尤里卡!一个主意!

但是,这里有一个问题。关于这片海洋的信息太多了,太复杂了。而且我们的潜意识锅的大小是有限的。它不是刚性的。它在某种程度上是灵活的,可塑的。但它的大小仍然有限。

于是大自然进化出一种机制来解决这个处理生命海洋极其复杂的问题:压缩和减压过程

我们的大脑能够获取通过我们的感官到达的信息,并将其压缩成一种细节更少、抽象程度更高的形式。

让我们开始可视化这个非常重要的轴,即细节抽象轴。当我们压缩生活的复杂性时,我们从高细节(和高维空间)到高抽象(在低维空间内)。

因此,在我们的潜意识罐中,我们收集了这些对世界复杂性的压缩表示,我们有时称之为:潜在空间

这些潜在空间包含不同信息域的抽象本质。我们摆脱了无信息的细节,并保留了许多缩减的维度,每个维度都记录了与数据所属的任何信息域相关的相关和有用的因素。

我们的大脑也可以做相反的过程。它可以进行解压,从高抽象到高细节。

“想象一头大象!” 我们听到这些话,脑海中浮现出大象的形象。我们只是运行了相反的过程,并将高度抽象的表示(大象)解压缩到我们脑海中的高度详细的可视化中。

我们刚刚探索的过程与 AI 网络中发生的过程非常相似。我们训练 AI 网络学习将高维域(如自然图像的域)压缩到潜在空间中,从而在更少的维度内保留这些域的抽象本质。

我们还训练他们将 这些潜在空间中的任何点解压缩为属于原始信息域的相应高维表示。

当我们探索从DALLE-2 (OpenAI) 到Imagen (Google)、Stable Diffusion (Stability.ai) 等复杂的生成 AI 系统时,我们会发现不同的中间阶段,例如,可以在模态之间转换,执行扩散过程,规模输入和输出等;但是所有这些系统的最初共同基础是这些压缩和解压缩过程,它们允许我们在高细节和高抽象之间双向移动。

人工智能系统的细节取决于我们的目标。我们可能想要放大图像,或者锐化它们,或者生成以文本提示为条件的全新图像,或者这些东西中的一些,或者完全不同的东西。这将决定我们使用什么样的训练目标和数据集,以及最终架构不同部分的精确细节。

当今领先的生成 AI 系统使用的关键策略是基于我们所说的扩散。例如,稳定扩散系统使用经过训练(使用大型数据集)的类似U-Net的架构来预测已添加到图像中的噪声。

一旦经过训练,同一个网络就能够通过多个步骤从图像+噪声的不同组合(包括完全随机噪声)返回到高质量图像。

它还可以从一张图像转到另一张图像,方法是在初始图像中添加一些噪声,然后执行与以前相同的过程。

为了使这些世代朝着正确的方向发展,它们以我们输入的文本提示的压缩表示为条件(注入到 U-Net 架构的不同部分)。

足够的技术细节。让我们继续。

因此,随着生成式人工智能革命,我们 越来越接近我们的本质,即能够通过我们的分析和创造性肌肉来执行收敛和发散(压缩和解压)的互补过程。

经过十年我们逐渐扩展和进化深度学习 AI 系统的收敛能力(能够预测、推荐、分类、识别等),生成式 AI 革命通过增加超人的发散能力(能够创建和生成)。人工智能正在回家。

但是当我们谈论潜在空间或抽象压缩表示时,我们真正的意思是什么?通过一个非常简单的例子,我们在自己身上找到了答案。

我在大自然中散步。当我回来时,我的朋友问我走路怎么样。我说:“太好了,我看到了一只漂亮的蝉!”。她问我:“蝉长什么样子?”

那时,我在脑海中想象出蝉。假设我的可视化以 1000 x 1000 光点的网格表示。那是一百万维空间。如果这些点有颜色,那么它们中的每一个都会有一个红色、绿色和蓝色分量(维度的 3 倍)。

所以我可以开始向我的朋友描述蝉说:“嗯,我想象的左上角的第一个光点有 15 个红色强度,25 个绿色强度和 77 个蓝色强度。它右边的下一个点有 145 的红色强度,55 的绿色强度……等等,下一个有……等等”。我可以通过 100 万个光点继续保持这种状态。这种方法的问题是显而易见的。

我可能要花一个月的时间来描述蝉,到那时我的朋友早就不在了。零效率。但主要问题甚至不是那个。

要知道这些百万点中的一个有 155 的红色强度只是不是很有用。细节往往不能提供相关信息。这就是为什么我会做一些不同的事情。

我将把蝉细节的所有复杂性和丰富性压缩成几个维度,30、50、100 个因子(无论如何都是很小的数字)来解释我所看到的本质。

我会告诉我的朋友:看,它有一个宽阔的脑袋,一个粗壮的绿色身体和透明的薄膜翅膀。4个翅膀,翅膀有这些图案。它有很大的复眼,有这么多眼睛,六条腿,腿是这样的,等等。我将高细节表示压缩到少数几个维度上,这些维度传达了重要的相关信息。

而现在,我的朋友听到了,她做了相反的过程,减压

她转换了这几个表达我所见本质的压缩维度,并将它们膨胀以在她的脑海中可视化 与该本质相对应的高度细节表示,蝉的图像(这与我想象的不同,因为压缩 - 解压缩过程以及所涉及系统之间的其他差异以及我们每个人在相关场景中掌握的先前知识)。

因此,在某种程度上,每次我们回忆某件事时,我们都在重建它,重新想象它,从我们存储的本质中重新创造它(这个过程的精确度在很大程度上取决于相关潜在空间的丰富程度)作为其创建中涉及的感官模式的数量,在其他因素之间)。

以下是我几个月前创建的关于DALLE -2 工作原理的信息图,将其过程与人脑中发生的情况进行了比较。

我们的大脑和这些 AI 网络中发生的事情之间存在许多差异,但与本文特别相关的一个差异是潜意识罐的大小,比喻地说。

我们的潜意识罐是由我们在生活中的经历喂养的。当我们与人交谈,当我们体验这个世界时,我们丰富了它的内容。最终,它的烹饪过程会在我们的脑海中产生新的想法、可视化、声音等等。

人工智能网络(在训练时)由巨大的数据集提供。生成式人工智能系统使用的数据集是由从互联网上收集的信息组成的。我们谈论的是海量数据。

所以,一方面,我们有人类,有我们的潜意识小罐子。

另一方面,我们有这些巨大的人工智能罐,它们接收来自互联网各地的数据。其中一些数据属于公共领域。但不是所有的。稍后我们将讨论这意味着什么。

是时候将前面的所有部分与艺术和人类艺术家联系起来了。现在,定义什么造就了艺术家是一项不可能完成的任务。相反,我将专注于探索历史上许多伟大创意的共同点。

还记得我上面讨论的那个从细节到抽象)吗?在我多年前出版的一本书中,我写了我想出的另一个比喻,我称之为“深度电梯”。

想象一条垂直线,电梯穿过它。在这条线的底部,我们有高维度和高细节的领域。这就是生命海洋的复杂性得到充分体现的地方。

在这条线的顶部,我们有压缩低维潜在空间的领域,它保留了较低领域的抽象本质(例如,这里有我们的语言)。

艺术家是以敏捷、灵活和动态的方式驾驭这个深度电梯的大师。让我们更深入地了解这一点。

当我们还是小婴儿和后来的孩子时,我们大部分时间都在深度电梯的底部度过,与宇宙的丰富性和细节互动。我们的分析思维模块仍未完全开发。这是我们的探索阶段。

相反,大多数成年人倾向于通过重用他们头脑中已经建立的心理模式来关注效率(这也有助于我们防止浪费我们宝贵的燃料,即为大脑提供动力的葡萄糖)。这是我们的开发阶段。因此,成年人大部分时间都在深度电梯顶部的狭窄象牙塔中度过。

在深度电梯的两半所花费的时间之间取得良好的平衡,是一个健康的目标。收敛发散、压缩与解压缩、抽象与细节之间的良好平衡。

这些两极之间缺乏平衡(无论朝哪个方向)都会在成年人身上产生不同类型的问题。我已经写了很多关于这些问题的文章,但这不是本文的主题。让我们回到艺术家身上。

许多伟大的艺术家都有以下共同点。他们能够以敏捷和灵活的方式导航这个深度电梯。他们能够下到电梯底部的深处,那里等待着丰富的宇宙。

而且,关键点,他们不只是踮起脚尖就离开了。相反,他们能够在下面花费很长时间,探索那些泥泞、狂野和不确定的水域。

他们还能够将这种丰富性具体化为不同的解释和表示,这些解释和表示可能会在从细节到抽象的整个轴的不同层次上表达自己。

并且表示本身,或者相反,它们的解释或它们的交流方式,也位于更靠近深度电梯的顶部。

这一切都与大多数时间都待在电梯顶部或靠近电梯顶部的典型成年人形成鲜明对比。你猜到了为什么。

因为在抽象的象牙塔上,在电梯的顶部,比在包含宇宙复杂细节的那个轴的泥泞底部航行要舒服得多(并且需要更少的燃料)(隐喻地说,我们也可以说这比在电梯底部的野外游乐场探索脏手要舒服得多)。

在这里,我们到达了另一个关键点。以历史上许多最伟大的艺术家能够做到的方式驾驭这个深度电梯,需要付出努力。这需要时间毅力。而且,在某种程度上,违背了我们成人思维的自然倾向,即高效并避免浪费我们宝贵的燃料。

关于这一点,需要指出的是,许多平台目前正在禁止生成人工智能艺术(或将其置于单独的类别或领域),因为他们认为这是:“低努力”艺术。

是的,要找到正确的提示来指导生成式 AI 架构需要付出一些努力。但是该过程所需的努力和时间无法与掌握前面描述的过程所需的数年甚至数十年的时间相提并论。我们将在本文稍后部分深入探讨这一点和其他相关问题。届时,我们还将思考这些难题的潜在解决方案。

因此,通过在深度电梯中进行这种灵活的导航,伟大的艺术家和创意人员能够以新颖的方式表达宇宙的丰富性。

选择生活中的任何东西,比如木头。您可能会以一种非常超然、抽象的方式体验木材。或者,您可以深入细致地探索木材的所有复杂性。如果你能够在两极之间灵活移动,那么你就可以更好地创造与宇宙元素相关的新颖和不同的东西。

伟大的创意人员还能够理解将位于轴底部的广阔海洋的各个区域、跨越这些水域的各个层以及通过深度电梯的顶层互连的不同方式。

例如,当一个伟大的创意体验节奏时,她可以超越学科、技术、工具和华而不实的术语。一个伟大的创意者可以在任何地方看到并感受到节奏。在窗帘投射的光影中,在落泪的声音和运动中,在星星的舞蹈中,在我们思想之间的缝隙中,以及超越。

多年来,伟大的创意者不断扩展和巩固他们潜意识罐的潜在空间。

他们还改进了他们导航深度电梯的方式,这使他们能够以强大的方式将细节与抽象联系起来,从而丰富他们的创作过程。

此外,艺术家和创意人员经常与他人合作。通过这样做,不同的潜意识罐可以相互丰富。

所以,如果你研究历史上一些最伟大的创意家和艺术家,你会发现他们都有话要说,一个信息,一个愿景。而且,这样的愿景,以及他们表达它的方式,与他们数十年来培养的能力密不可分,以流畅的方式导航这些深度电梯,探索宇宙的丰富性以及象牙的深度抽象的塔和两极之间的许多领域。

最后,关于这些深度电梯,下一步将不是将它们可视化为孤立的实体,而是将它们视为在多维空间内相互连接的多个漏斗。

下面的折纸图像试图代表隐喻扩展的一小部分。

不过,是时候停下电梯继续前行了,以便专注于回顾生成式 AI 革命的现状,以及解决其当前成长痛点的方法。

因此,利用我们上面的探索,让我们考虑一下今天和未来的情况,以及可以做些什么。

让我们 探讨从生成式 AI 革命的初始阶段产生的一些后果。

  • 生成式人工智能 不会取代人类的创造力。它会增强它。
  • 这项技术揭开了创造力的神秘面纱。想想爱迪生说过的话:天才是 99% 的汗水(组合、重组、生产性工作和实验)和 1% 的灵感(建立种子、打磨等)。多亏了这项新技术,我们现在意识到我们可以自动化很大一部分的创作过程,这一部分是在我们的脑海中下意识地发生的。
  • 关于人类决策的研究表明,我们每天要做出超过 30000 个决定。但我们只知道其中的 0.26% 左右(例如华为的研究)。我们的生活比我们想象的要多得多,是在潜意识中发生的。通过使用人工智能技术使我们的潜意识烹饪过程自动化,我们可以以积极的方式影响我们的大部分存在。
  • 事实上,我把这个新时代称为“超潜意识时代”。

  • 将这项技术想象成一系列不同的钢铁侠套装,它们将放大你的潜意识并增强你的创造力。

  • 不同的钢铁侠套装会有不同的风格、特质和个性。

  • 迅速的工程师是那些将成为从这些钢铁侠套装中获得最佳效果的专家的人。他们会知道来龙去脉,每个人的优点和缺点。

  • 在与这些强大的放大器交互时,他们还将成为利用人类经验和直觉来达到预期结果的大师。

  • 因此,这些迅速的专家将在未来几年受到高度重视。他们的角色将成为就业市场上享有盛誉的角色。我们将见证大量的课程、出版物和系统来教育和帮助人们训练这项技能。

  • 今天,我们的提示是自然语言和图像。但是由于多模式架构,提示将很快成为我们想要用来指导这些架构的任何类型的数据(不同的系统将被设计为吸收不同类型的指导输入)。

  • 最初的文本到图像阶段现在已经过渡到文本到视频和文本到 3D 功能。最终,我们将能够使用针对特定垂直行业需求的定制系统输出各种数据。

  • 接下来,我们将见证多模式输出能力,这最终将使我们能够制作例如包含视觉、对话、音乐等的完整电影。

  • 这项技术将激发我们无法想象的新艺术形式。多模态生成人工智能有望引发结合深度电梯探索和未探索区域的新方法的出现,最终可能成为备受推崇的新艺术表达形式。

  • 生成式人工智能将影响大量行业。它将用于通过合成生成扩展科学数据集,彻底改变头脑风暴过程,以几个月前无法想象的方式个性化品牌,加速实时动态“只为你”营销和广告的兴起,并将各种演示引入新的通过以令人印象深刻的方式与他们的内容相匹配的媒体围绕他们,在许多其他例子之间。从图书馆到设计精品店,整个媒体领域都将争相采用这项技术。

  • 像VR 和 AR(以及一般所有形式的XR )这样的尖端技术将采用这项技术(实验已经在进行中),最终我们将见证沉浸式空间的实时生成,这些空间通过跟踪用户的注视以智能方式再生(考虑这些实验与唐纳德霍夫曼的理论之间的联系是很有趣的)。

  • 这项技术还将加速许多创意过程的探索和实验阶段。从概念设计到产品设计、角色设计和原型制作阶段,跨越广泛的领域,生成式 AI 将使我们能够在更短的时间内做更多的事情,尝试各种新的方向,并更深入地探索我们对每个层面的探索。深度电梯。

  • 所谓的“元宇宙”对许多人来说仍然是一个乌托邦,而且它的体面实施似乎还很遥远。如果元宇宙要成为一个有用的现实,它可能会发生在生成人工智能技术的肩膀上,这可能是加速其实施的关键。

  • 在未来,我们将见证智能生成环境 (SGE)的兴起,它将根据我们的需求或情绪状态发生变化。房屋、活动场所和其他环境将通过匹配和相似其内容的意图和情感,开始类似于有机生物。他们将以多式联运的方式这样做。最终,我们将能够与这些环境对话,它们将成为我们心理平衡和健康的关键支持。

  • 生成式人工智能与能够解释我们表情和行为的每一个细微差别的更强大的感知模型相结合,将使我们能够对我们的情绪和精神状态产生实时的多模态解释。当与脑电波阅读技术(EEG、MEG 等)的新迭代相结合时,这将迎来一种新的创造性表达方式,它实际上将使用我们最亲密的领域作为画笔来产生人类状况的非凡再现。

  • 尽管有些工作现在和将来都处于危险之中,但我们还无法想象的新角色很可能会因需要管理这项技术并与之互动而出现。

  • 与此同时,许多受影响的工作和角色将通过拥抱这个新时代并调整他们的流程以适应这项新技术所提供的东西,从而生存甚至茁壮成长。

  • 很多可能不是专业艺术家,但具有锻炼创造力的自然倾向的人将在这项新技术的帮助下茁壮成长。他们将以更快、更轻松的方式加强这些肌肉,他们将享受新的机会来增强和扩大他们的创造潜力。

  • 我们在开始时结束本节。提醒我们所有人,生成式 AI 不会取代人类的创造力。它会增强它。而且,锻炼我们的创造性肌肉将继续成为同样强烈推荐的活动。在可预见的未来,在我们发散和收敛、压缩和减压的能力之间取得良好的平衡,对于我们的心理和精神健康将继续非常重要。

  • 我们人类有一个有限且相对较小的潜意识罐。生成式AI系统经过训练,可以容纳包含大部分互联网知识的巨大罐子。

  • 正因为如此,人类创意必须与生成式 AI 系统竞争似乎不公平,在道德上也不正确。

  • 当机器在国际象棋上战胜人类时(这一事件的影响比这次小得多),没有人认为继续探索人类与机器的国际象棋比赛会很有趣(除了那些证明我们已经输掉了这场战斗的比赛)。我们接受他们更好。然后我们分道扬镳。

  • 人类棋手使用人工智能训练自己并变得更好(类似于生成人工智能系统提供的这些隐喻的钢铁侠套装的增强和放大能力)。

  • 下棋或围棋的人工智能系统有时会产生人类永远不会想到的非常漂亮的动作。他们有自己的特殊观点(当然,基于巨大的及时展望能力)。然而,很少有人对机器与机器的比赛感兴趣。人类更喜欢看到其他不完美的人类玩耍。

  • 无论如何,关键是它们将两个域分开。机器帮助人类棋手训练并变得更好。他们也可能在他们之间玩耍。人类分别参加自己的比赛。

  • 我相信生成式 AI 最终可能会发生类似的事情(当然,存在许多差异,因为它们是非常不同的领域)。

  • 另一个需要考虑的棘手问题是当前对这项技术的一些兴奋背后的一个关键因素。我将在本文的最后部分详细介绍这个问题。暂时先介绍一下吧。

  • 在许多人看来,格雷格·鲁特科夫斯基( Greg Rutkowski)即使不是最好的幻想艺术插画家,也是当今最好的插画家之一。他的名字出现在大量用于制作最近一些最令人印象深刻的生成人工智能艺术的提示中。

  • 因此,在所有由 Greg Rutkowski 绘制的令人惊叹的艺术作品引发的多巴胺热潮消退之后,在这些多巴胺热潮消退之后,很多人将留下成百上千的 AI 生成图像或视频,然后,他们会问自己:“现在,怎么办?”

  • 在大多数情况下,“没有”将是答案。因为这些人中的大多数人并没有真正锻炼他们与任何深刻而有意义的内在驱动力相关的创造力;他们像购买新 iPhone 的人一样使用这项技术,以一种强迫性的方式,追随闪亮的最新技术。

  • 当这种冲动消失时,他们会感到有点空虚。因为 大部分留下的东西都不是他们的,所以它属于 Greg Rutkowski 和他的风格,经过数十年的辛勤工作(例如,在许多其他为这些网络提供动力的在世艺术家中)。

  • 无论如何,让我们现实一点。事情发展得太快了,人们需要时间赶上是有道理的。当前场景可能有许多解决方案。我将在下一节的末尾讨论其中的一些内容。

Geniverse 生成的图像(生成式 AI)

  • 人工智能生成系统之所以成为可能,是因为用于训练它们的巨大数据集。

  • 人工智能生成架构使用由图像、视频、文本和其他类型数据组成的海量数据集进行训练。

  • 这些数据通常由创建这些数据集的组从 Internet 中提取。

  • 这些数据 集中使用的一些数据 公共领域 数据。使用这些数据来创建这些数据集似乎是公平的。

  • 但是,这些数据集中使用的很大一部分数据属于尚未宣布为公共领域数据的在世艺术家。这些是靠出售这些数据谋生的艺术家=出售他们几十年的辛勤工作,产生了一种特定的风格和一系列作品。

  • 事实上,这些艺术家是这场革命支持自己迅速崛起的基础。

  • 因此,越来越多的在世艺术家对此表示不满。其中一些人表示,在世艺术家的作品不应包含在这些数据集中。据一些人说,他们的抱怨被置若罔闻。他们大多被忽略(至少到目前为止)。

  • 如果我们忽视这些在世艺术家的抱怨,我们就是在忽视自己。今天,我们讨论的是视觉艺术,但明天,它可能是音乐、小说、法律著作,或者我们的职业或领域。

  • 让我们再次从许多人在使用这些系统时的体验的角度来考虑这一切。当一个人创作出令人惊叹的数字艺术作品时,这种多巴胺冲动建立在谁的肩膀上,这种艺术作品与鲁特科夫斯基先生的风格和作品非常相似?当然,在 Rutkowski 先生的那些。更具体地说,Rutkowski 先生几十年来极其努力工作和坚持不懈地应用和投资来创造这种风格和作品。

  • 当他们花一些时间想出一个提示,其中包括 Rutkowski 先生的名字,然后单击一个按钮并以最小的努力产生一个结果时,一种风格和一套工作现在会给那个人带来如此强烈的多巴胺冲动如此接近他的艺术。

  • 有人可能会说:“但我花了 50 个小时才想出提示”。

  • 无论这是否是一个夸大的数字,它都不会改变这样一个事实,即任何人在几分钟或几小时内对语言提示的探索与 Rutkowski 先生等人数十年投入的工作之间没有可比性。

  • 这也没有改变 Rutkowski 先生从未明确允许将他的作品包含在这些 AI 架构使用的数据集中的事实。

  • 即时工程是艺术+科学。它将逐渐成为一种享有盛誉的技能和学科。

  • 将会有大量关于这个问题的书籍和课程。优秀的提示工程师将了解许多不同 AI 架构的来龙去脉、优势和劣势,同时能够将他们的人类直觉应用于从人机交互中提取最佳结果的提示的生成。的确。

  • 但这仍然不是践踏人类同胞和在世艺术家权利的借口。在本文的下一部分和最后一部分中,我将更详细地讨论我们可以针对此问题和其他相关问题做些什么。

  • 让我们再次强调以下几点:这场革命发展得如此之快,以至于人们需要时间来赶上这一切是可以理解的。追赶和寻找更可持续方案的过程还处于初始阶段。

  • 我将永远支持生成式人工智能, 但最重要的是,我将支持和捍卫我的创意伙伴(因为人和他们的生活应该永远比技术更重要)。这是道德和道德问题(法律方面不是本文的一部分。这些将由其他人解决,我相信道德和道德应该是这件事的第一指南)。

这是一场奇妙的革命,将为人类带来许多好处。但正如我们所看到的,在这些初始阶段也有一些棘手的方面需要考虑。让我们讨论如何解决其中的一些问题。

我将从道德和伦理的立场来讨论这最后一部分。

可以预料,最终,一些机构和团体将引入与这些系统相关的不同形式的监管,公司也将引入自己的保障和控制。但这些以及其他法律观点需要时间才能建立起来。

虽然 可能没有我们预期的那么多时间。在下一节的最后,我将评论内容真实性倡议 (CAI)这是一个由Adob​​e创立的开放标准。数百家公司已经加入了CAI ,其中一些公司已经计划在他们的平台上实施它。

这将使他们能够跟踪数字内容的来源,是否使用生成人工智能来制作它,以及与错误信息和保护创作者权利相关的其他因素。

现在让我们思考如何使这场革命更具可持续性。

一个在世的艺术家,他花了几十年的时间发展出一种风格和作品,其权利完全属于我们正在考虑的艺术家,如果该艺术家的作品被包含在任何这些庞大的作品中,他应该有发言权和/或得到补偿生成 AI 数据集。

否则,就好像,例如,你在画廊里展示一件艺术品,有人过来拿走它,然后从中获利。有一种普遍称为版权的东西,它并没有在生成式人工智能革命开始时神奇地消失。

有人会举YouTube的例子,说在初期,Youtube 有点像在挥手这些问题,否则他们永远不会起飞。众所周知,现在和很长一段时间,YouTube 都采用一套非常严格的机制来保护其平台内的版权。事实是,生成式人工智能已经大规模爆发。因此,最初的“到底是什么”阶段是可以理解的,但该阶段现在已经过去了。因此,现在是开始保护创作者权利的时刻,就像 YouTube 和其他类似平台必须做的那样。

最后,我们需要讨论一个非常重要的问题,灰色地带。为了达到这个目的,让我们快速回顾一下我们在前几节中提出的观点。

让人类和机器在同一个艺术比赛、艺术平台等中竞争是不公平的。人类有小的潜意识罐。人工智能系统有大量的。人类的潜意识罐子容纳着他们生命中有限的经验,一个生命。人工智能系统拥有数百万或数十亿人的知识。让我们变得真实。让他们相互竞争是不公平的,也是不道德的。

相反,就像国际象棋一样,我们可以想象艺术比赛和艺术平台中的不同部分。人类创造的艺术。人工智能创作的艺术品。这已经在世界各地的许多平台上发生。但这一点最终将我们带到了灰色地带。

“等等,这东西不是完全由人工智能产生的,你看。我使用人工智能来制作部分作品,是的,没错,但后来我对其进行了打磨,我在它的基础上进行了构建,因此,它是合法的,对吧?”

我们会听到很多这样的消息。因此,解决这种情况至关重要。

美国版权局最近就请求注册 AI 生成的艺术品做出的裁决指出,“人类作者身份是美国版权保护的先决条件,因此不能注册该作品。” 可以在此处找到有关此裁决的扩展讨论。

但同样,我们即将面对(并且已经发生)的是灰色地带。介于两者之间。我相信这些问题 答案在于——公共领域与非公共领域——的讨论。

因为,在某种程度上,一切都变了,但同时没有任何变化。开始了:

  • 在生成式人工智能爆发之前,你可以去谷歌搜索,找到一些公共领域的图像、视频或任何类型的数据,并将它们纳入你的创作过程,一切都是公平和好的。

  • 在生成式 AI爆发之前,你不能去谷歌搜索,从一些在世的艺术家那里找到一些非公共领域的图像、视频或任何类型的数据,然后在未经许可的情况下将它们纳入你的作品中(显然在尝试从他们的作品和你的作品的组合中获利。我们在这里不讨论你只是使用一些在线艺术作品进行自己的实验,私下里,而不寻求从中获利)。

好吧,你猜怎么着。这就是答案。没什么新鲜的。答案是以后可以应用相同的标准。

  • 当我们驾驭这场生成性 AI 革命时,当它连接到仅使用公共领域数据的数据集(或来自已明确允许其创作在这些数据集中使用的在世艺术家的数据)的数据集时,应该可以使用该技术. 我们再次仅指寻求通过使用该技术产生利润的场景。

  • 如果您打算将结果用于任何商业目的,则在使用包含非公共领域数据的数据集时,不应完全或部分使用此技术您可以为自己的个人用途进行试验,就像现在有些人从著名的在世艺术家那里下载艺术品时可能会做的那样,但肯定不是出于商业目的。

我相信这些都是基于常识的想法。但其他人可能会提出关于补偿艺术家的新想法,这些想法可能会为解决这个难题提供新途径。YouTube 再次提供了一个线索,说明解决这些问题的一些替代方法可能是什么样的(更多关于这一点的内容如下)。

因此,艺术比赛、艺术平台、图片平台等可以要求参赛者披露:

  • 如果他们使用了生成式人工智能技术。

  • 如果是这样,他们使用了哪一个,以及哪些数据集为该技术提供了动力。

  • 如果支持该技术的数据集仅包含公共领域数据,那么他们可能会选择为这项工作敞开大门。

  • 如果所涉及的数据集还包含非公共领域的数据,那么他们可以决定对这些作品关闭大门,或者将它们放在单独的部分中。

  • 当然,人们可能会撒谎。因此,我们还将见证自动化系统的兴起,该系统能够识别您的部分作品是否与版权受保护的在世艺术家的部分创作相匹配。

这正是今天 YouTube 等平台所使用的,例如,与人们上传的视频的音乐有关。会有很多误报之类的。就像现在 YouTube 使用的系统一样。这是保护活着的创意者和艺术家的权利所付出的代价。

扩展这些机制来解释各种数据,以及比音频更复杂和更高维度的数据,并不容易。但肯定已经有人在处理这些问题。

如果我们再看一遍 YouTube,我们还会看到平台处理基于非公共领域数据的生成 AI 艺术的各种方式(并且可以预期平台最终将能够检测到这一点) ,或者因为用户声明了它,或者因为他们的自动系统检测到它,或者因为像CAI 标准提出的技术这样的技术有助于检测它)。

平台可能会为这些作品添加广告,并与受影响的艺术家分享利润。或者,他们可能会在与艺术家或创作团体相关的版权影响区域内屏蔽部分或全部作品。或者他们可能将它们放在单独的特殊类别中(远离人类创造的创造物),同时进一步澄清这些场景。我们还可以看到处理由公共领域数据驱动的人类+人工智能系统所产生的创造的各种各样的方式。总之,一旦检测系统变得足够好,就会有很多方法来处理这些灰色区域。

这些检测系统的工作已经开始。通过使用智能元数据和其他工具, CAI 标准将很快开始在世界各地的公司和平台上实施。让我们简要探讨一下它的作用。

许多公司和团体已经在研究和设计可用于处理灰色区域和错误信息的系统。

其中一个系统是由Adob ​​e 发起的内容真实性倡议项目 (CAI) 。CAI实际上是在 2019 年开始的,因为 Adob​​e 等公司预计需要一个标准来处理 AI 工具产生错误信息和其他相关问题的可能性。

用他们的话说,CAI 成员是:“一个由媒体和科技公司、非政府组织、学者和其他 致力于促进采用开放的行业标准来确保内容真实性和出处的社区”。(现任成员名单

该组织的成员是免费的,它提供开源工具,允许在从捕获到分发的整个管道中跟踪数字内容的出处和归属。

最终目标是确保创意人员的工作得到认可,并且人们和平台可以了解他们所处理的内容制作的起源和方法是什么。

需要强调的关键是,CAI 标准将使人们能够了解生成式 AI 是否以及如何用于创建特定内容。

有大公司致力于推广他们所谓的“负责任的人工智能” ,这是一个好兆头。并且正在建立的系统将使我们能够知道每条数字内容的来源、生成人工智能是否参与其制作、内容附带了哪些版权等。

重要的是要强调,为了保护摄影记者和其他创作者的隐私和安全,这些创作者可以选择在使用这些系统时是保留署名还是保持匿名。

全世界都在注视着。在最近的Visual 1st会议(成像生态系统的首要会议,在旧金山举行,由 Hans Hartman 和 Alexis Gerard 领导)上,生成式 AI 是对话的重要组成部分。在活动开始的炉边聊天中,我很高兴与汉斯和亚历克西斯进行了精彩的讨论。

Paul Melcher这样的视觉技术专家 正在为全球观众带来最新的生成式人工智能。

世界各地的教育工作者,从fast.ai等组织到AI 硕士课程,拥有数十万粉丝的YouTube主播,以及即时工程专家,都在记录和解释这场革命的每个阶段。

数据集领域,我们还发现了非常有趣的公司和项目,例如datasetshop.com,由vAIsual提供支持,是合法清洁合成库存媒体生成的先驱,也是世界上最大的可许可生物特征发布的真实数据集的创建者。

同样,我们正在目睹“负责任的人工智能”和“合法清洁”数据集等术语的兴起,这是一个好消息。

作为一个在生成式 AI 和艺术这两个领域都非常活跃的人,我试图在本文中为您提供有关这些动态早期阶段所涉及的许多观点的高级概述。

让我们提醒自己,在快速发展的背景下,这确实是早期阶段,所以让我们彼此尽可能地温柔,因为我们会尽最大努力在鼓励能够为人类带来许多好处的技术之间找到适当的平衡,以及需要保护创意和艺术家的权利。

至于未来的时代,在我看来,简单来说:

  • 艺术家将继续成为艺术家。正如本文试图解释的那样,成为或不是艺术家与特定的工具或技术无关。相反,它与我们与之前探索的那些深度电梯的交互方式有很大关系。

  • 工程师将继续成为工程师

  • 研究人员将继续成为研究人员

  • 提示工程师(一个新的部分),将是提示工程师。

  • 艺术家和创意人员,无论是否专业 (以下同样适用于专业创意人员或那些天生倾向于锻炼他们的创造力的人)将生成人工智能技术和快速工程融入他们的流程,将有更好的机会领导他们的领域,并且可能成为更伟大的艺术家和创意者,因为他们将在这些强大的钢铁侠套装(巨大的潜意识罐)的帮助下孵化他们的想法,并使用相同的技术来加速他们的创意生产过程。

  • 最后,懒惰的人会继续做懒惰的人。

人工智能肯定会回家。我们必须齐心协力,从这场革命中发挥出最好的一面,以尽可能地造福人类。

为了完成这篇文章,我们已经探索了相当复杂的问题,让我们以更轻松的语气结束,用一些音乐来向这项奇妙的技术致敬。

以下是Soprano Covadonga González Bernardo 表演的一小部分片段,演奏了一首由不同 AI 系统和我自己合作创作的歌曲。GPT 架构用于歌词,音乐转换器用于旋律+和弦,VQGAN 用于视觉效果。(视觉效果不会出现在这个小片段中)。这是由Instituto of Inteligencia Artificial @ iia.es提出并组织的一个项目,我曾在此发表过几次演讲。

提出并组织的一个项目,我曾在此发表过几次演讲。

哈维尔ideemi的视频| ideami.com

接下来,一个简单的小钢琴即兴演奏,主题是生成人工智能回家,更接近人类的潜力。

最后,有点时间旅行的乐趣。我们是否都能够理解,我们今天所经历的生成式人工智能可能会被解释为几十年前的奇迹?让我们时光倒流到 1950 年的西班牙 :)

每个人都保持健康,最重要的是,保持人性化。

关于我的最后一句话,“保持人性”。

有时,人们会问我:如果人工智能在 30、40 或 50 年后擅长系统 2 能力(推理、计划等),我认为会发生什么?

系统 1 和 2是我们头脑中不同类型的思维模式

系统 1指的是快速、潜意识、同步、直观的过程,这是人工智能达到超人能力的领域。

系统 2是指缓慢的、逻辑的、理性的、系统的、精确的和顺序的思维方式。掌握第二种模式仍然远远超出我们的人工智能系统。(参见Daniel Kahneman 的书“ Think fast and slow ”以扩展系统 1 与系统 2 的思维)。

在现在和将来,关于系统 2 与 AI 相关的能力的讨论将填满这样和更大的整篇文章。所以我把它留到另一个时间。让我们回到本结语开头提出的问题。

我通常会回答这个问题在几十年内可能不再有意义。为什么不?

因为今天人工智能和人类之间存在分离。人工智能就在那里。我们在这儿。

在几十年后,这种分离将不再存在。想想Neuralink公司这些天已经在做什么了。这只是即将发生的事情的开始。

几十年后,我们的技术,包括人工智能和我们的生物学,将以多种方式融合。

然后,新的问题可能是:“既然我们在一起了,下一步我们会去哪里?”

感谢您的阅读。 

内容中包含的图片若涉及版权问题,请及时与我们联系删除