现如今,围绕生成式人工智能(Generative AI/AIGC)的热烈讨论响彻了中西方学界和产业界,甚至在普通人的生活中都震荡起一道道波澜,从阳春白雪的知名学者到普通的平头老百姓,都在讨论和体验生成式AI带来的震撼效果。比如,下面这些图像都基于笔者用stable diffusion模型生成:

图片

威风凛凛的中世界重装骑士

生成式人工智能(Generative AI)指的是能够产生新奇内容(Novel Content)的人工智能,而不是简单地分析或作用于现有数据。现在除了生成式 AI,技术世界已经没有任何话题可以吸引更多的关注和炒作。

从去年九月份开始,生成性人工智能热潮的白热化中心是文本到图像(Text-to-Image)的AI。文本到图像的AI模型根据简单的书面文字输入生成生动、细致的图像。这些模型中的佼佼者有Stable Diffusion、Midjourney和OpenAI的DALL-E。

正是这些文本到图像的AI模型在夏天的突然出现,催化了今天的生成式AI的狂热 - 为新生的初创公司提供数十亿美元的融资,浮夸的路演或新品(基于开源的Stable Diffusion模型)发布会,止不住的媒体报道,一波又一波的企业家和风投匆忙地把自己重新包装为人工智能的焦点。

图片

AI之所以能够生成如此栩栩如生的图像,还是因为海量算力和海量数据带来的“智能涌现”

文本到图像的生成式AI,确实比其他任何人工智能领域都更能吸引公众的想象力:图像具有审美吸引力,直观形象,易于理解;雅俗共赏,比“老头乐”单反拍照来得更便捷,“点语成画”,艺术唾手可得,且易于分享,非常适合于社交圈子的病毒式传(xuan)播(yao)。

同时,可以肯定的是,文本到图像的AI是令人难以置信的强大技术,这些模型所能产生的图像的原创性和复杂性令人叹为观止,它将深刻的改变包括广告、游戏和电影制作等行业。

尽管如此,在未来几年,人工智能驱动的文本生成(AI-Powered Text Generation)将比人工智能驱动的图像生成(AI-Powered Image Generation)创造更大数量级的价值。机器生成语言的能力--写作和说话--将证明比它们生成视觉内容的能力更具变革性。

语言是人类最重要的一项发明。比起其他任何东西,它是使我们与地球上其他物种区分开来的根本原因。语言使我们能够进行抽象的推理,发展关于世界是什么和可能是什么的复杂想法,相互交流这些想法,并跨时代和跨地域地建立这些想法,而且可以通过语言的载体---文字将这些想法和知识进行积淀,从而使人类一代一代的迭代认识世界和改造世界的方法论和实际经验。因此,如果没有语言,现代文明几乎没有任何可能会发生。

在2014年的经典博文 《永远押注于文本 (Always Bet On Text)》中,格雷顿-胡尔有说服力地阐述了文本相对于其他数据模态(Data Modalities)的诸多优势:

  • 它是最灵活的通信技术(Communication Technology);

  • 它是最持久的、最便宜的和最有效的;

  • 它是最有用和最通用的社交方式;

  • 它能根据场景的不同来传递说话人的想法,并能精准的控制信息的模糊/精确程度,如高语境和低语境,在高语境文化中,大部分信息存在于物质语境中,或内化于交际者的思维记忆深处,信息的传递和编码取决于社会文化环境和交际者所处的具体情景,显性清晰的编码所负载的信息量相对较少,人们对交际环境的种种微妙的提示较为敏感。在低语境文化中正好相反,人们在交际时,大量的信息通过显性直白的编码承载,隐性的环境传递出相应的信息和情景,暗示的信息较少;

  • 它可以被索引、搜索、纠正、总结、过滤、引用和翻译。用Hoare的话说,"所有的文学和诗歌、历史和哲学、数学、逻辑、编程和工程都依靠文本编码来表达它们的想法,这不是一个巧合"。

世界上的每一个行业,每一个公司,以及每一个商业交易都依赖于语言,他们离不开面对面或远程的语言或文字的交流沟通、纸质化的商业合同等不同形式的语言媒介和载体。试想,没有语言,社会和经济将会全面陷入停滞。

因此,实现语言自动化的能力会为创造价值提供了前所未有的机会。与文本到图像的生成式AI(其影响将在特定行业中,如游戏、影视制作等领域感受最为强烈)相比,语言文本生成式AI将改变世界上每个行业、每家公司的工作方式。

Chatgpt的出现,仿佛为语言文本生成式AI的前进方向上挂起了一盏明亮的指路灯。

图片

Chatgpt辅助撰写解决方案提纲

图片

为了说明即将到来的转型的深度和广度,让我们先看看一些实际应用场景。

从PPT走向落地应用

就商业应用场景而言,语言文本生成式AI的第一个真正的 "杀手级应用 "已被证明是文案写作:即人工智能生成的网站资讯内容、社交媒体帖子、博客文章和其他与营销有关的书面内容。

在过去一年里,与人工智能驱动文案写作场景的相关公司的收入增长惊人。Jasper是这一类别中领先的初创公司之一,仅在18个月前推出,据说今年的收入将达到7500万美元,成为有史以来增长最快的软件初创公司之一。Jasper刚刚宣布了1.25亿美元的融资,使公司的估值达到15亿美元。不足为奇的是,已经出现了一大批竞争者来追逐这个市场。

典型代表,就是Google 旗下 DeepMind 的 Dramatron。

 Dramatron 比起 ChatGPT 更专精,它的定位其实是人机「共同写作」(co-writing)工具,可以用来编写戏剧和电影剧本。 三句话不能让别人为我花 18 万,但一句话让 AI 帮我写了个剧本,并不是个段子。  只要你给出「一句话大纲」(log line)描述戏剧冲突,Dramatron 就能生成标题、人设、情节、场景和对话。

但是,文案写作只是一个开始,更广泛的营销和销售堆栈的许多部分已经成熟,可以通过大型语言模型(LLMs,Large Language Models)实现自动化,如GPT3。期待看到生成型人工智能产品,例如:自动处理销售发展代表(SDR)的外发电子邮件;准确回答感兴趣的买家关于产品的问题;在潜在客户通过销售漏斗时处理与他们的电子邮件往来;在电话中向人类销售代理提供实时辅导和反馈;总结销售讨论并建议下一步行动;等等。随着更多的销售过程被自动化,销售代表将被解放出来,专注于销售中独特的人性方面,如客户的共情和关系的建立,这些是机器不太擅长的领域。

在法律界,生成性人工智能将在很大程度上实现合同起草的自动化。法律团队之间关于交易文件的大部分来回工作将由LLMs驱动的软件工具来完成,这些工具了解每个客户的特定优先事项和偏好,并相应地自动处理交易文件中的语言。签署后,生成式人工智能工具将大大简化各种规模的公司的合同管理。

语言模型总结和回答有关文本文件的问题的强大能力,同样会改变法律研究、发现和诉讼过程的其他各种部分。

在医疗保健领域,生成性语言模型将帮助临床医生编写医疗笔记。他们将总结电子健康记录并回答有关病人病史的问题。它们将帮助实现时间密集型行政程序的自动化,如收入周期管理、保险索赔处理和预先授权。不久之后,它们将能够通过结合对现有研究文献和特定病人的特定生物标志物和症状的深入理解,为个别病人提出个性化、量身定制的诊断和治疗方案。

生成式人工智能将改变各行业的客户服务和呼叫中心的世界:从酒店到电子商务,从医疗保健到金融服务。内部IT和人力资源服务台也是如此。

语言模型已经可以将客户服务对话之前、期间和之后发生的大部分工作自动化,包括电话中的代理辅导和电话后的文件和总结。很快,与生成性文本到语音技术搭配,它们将能够处理大多数客户服务活动,不需要人类---不是以自动化呼叫中心多年来的呆板、脆性、基于规则的方式工作,而是以流畅的自然语言,实际上与人类代理没有区别。

简而言之,几乎所有你作为消费者需要与品牌或公司就任何主题进行的互动,都可以被自动化、智能化的LLMs所代替。

我们处理结构化数据的方式---大多数组织核心的基础业务活动---将被生成式语言模型所改变。斯坦福大学最近的研究表明,LLMs在完成各种数据清理和整合任务方面非常有效---如实体匹配(Entity Matching)、错误检测(Error Detection)、数据归纳(Data Imputation)等任务,尽管它们并没有专门为这些下游任务做定制化训练,但海量语言类数据“投喂”出来的LLMs所涌现出的“智能”能够基于上下文学习(In-Context Learning)在极少的数据示例下完成各类复杂的任务。最近在Twitter上发布的一个有趣的演示,暗示了生成式AI将改变我们使用微软Excel等程序的方式。

新闻报道和新闻业将变得高度自动化。虽然人类调查记者将继续追寻故事,但文章本身的制作将越来越多地移交给生成性人工智能模型。不久之后,我们在日常生活中所消费的大部分在线内容都将由人工智能生成。

在政府中,立法者将依靠LLMs来帮助起草立法。监管者将雇用它们来帮助将法律转化为详细的法规和守则。从省级、市级到县区级的官僚们将利用它们来帮助简化行政国家的许多职能,从处理许可申请到发放小额罚款。

在学术界,生成式语言模型将被用于起草资助提案,综合和审视现有文献,以及撰写研究论文(包括学生和教授)。一个涉及学生使用生成性语言工具为他们写学校论文的丑闻无疑就在眼前。

科学发现的过程本身将被生成式语言模型所加速。LLMs将能够消化某一领域已发表的研究和知识的整个语料库,吸收关键的基本概念和关系,并提出解决方案和有希望的未来研究方向。

这不是一种推测的未来可能性 --- 它已经实现了!来自加州大学伯克利分校和劳伦斯伯克利国家实验室的一组研究人员最近表明,大型生成式语言模型可以从现有的材料科学文献中捕捉潜在的知识,然后提出要研究的新材料。直接引用他们发表在《 Nature》杂志上的论文片段:"我们在此表明,在已发表的文献中存在的材料科学知识可以有效地编码为信息密度高的词嵌入( Information-Dense Word Embeddings),而不需要人工监督。在没有明确“注入”化学知识的情况下,这些词嵌入(Word Embeddings)可以捕捉到复杂的材料科学概念,如周期表的基本结构和材料的结构-性能关系(Structure-Property Relationships)。此外,我们证明了一种无监督的方法可以在材料被发现的几年前就为其功能应用提供建议"。

超越自然语言

生成式语言模型的最有前途的商业应用之一根本不涉及自然语言,LLMs有望彻底改变软件开发的进程。

无论是Python、Ruby还是Java,软件编程都是通过语言进行的。与英语或汉语等自然语言一样,编程语言是用符号表示的,有一套自成体系的语法和语义规范。因此,能够获得令人难以置信的自然语言流畅性的强大的新人工智能方法同样可以学习编程语言,这是有道理的。

今天的世界在软件上运行,且现今全球软件市场的规模估计为5万亿美元,软件已经成为现代经济的命脉。因此,使其生产自动化的能力是一个前景巨大的商业变现机会。

这方面的最大主导者是微软。微软与其子公司GitHub及其亲密伙伴OpenAI一起,在今年早些时候推出了一款名为Copilot的人工智能编码伴侣产品,Copilot由Codex驱动,这是OpenAI的一个大型语言模型(它又是基于GPT-3的)。

此后不久,亚马逊推出了自己的AI配套编程工具,名为CodeWhisperer。谷歌也同样开发了一个类似的工具,不过该公司只在内部使用,没有公开提供。

这些产品只有几个月的时间,但已经可以看出它们将带来多大的变革。

在最近的一项研究中,谷歌发现,使用其人工智能代码完成工具的员工与不使用该工具的员工相比,编写代码的时间减少了6%,这些员工的代码中有3%是由人工智能编写的。

来自GitHub的最新数据更加引人注目:该公司在最近的一次实验中发现,使用Copilot可以将软件工程师完成编写代码任务的时间减少55%。据GitHub的首席执行官称,现在该公司多达40%的代码是由AI编写的。

现在想象一下,将这些生产力的提高扩展到所有的谷歌、所有的微软、所有的今天的软件行业。数以十亿计的价值创造将被争夺。

微软的Copilot注定会独占这个市场吗?

不一定。

首先,许多组织会觉得在“云”上向微软这样的大型技术公司暴露其全部内部代码并不舒服,他们更愿意与在内部部署其解决方案的中立创业公司合作。这在金融服务和医疗保健等高度管制的行业尤其如此。

此外,Copilot还面临着一个有趣的组织挑战:

该产品由微软、GitHub和OpenAI共同构建和维护。这是三个不同的组织,有着不同的团队、文化和节奏。这个领域现在正以惊人的速度发展;随着技术和市场的发展,快速的产品迭代和短的开发周期将是至关重要的。微软/GitHub/OpenAI三足鼎立的局面可能会在协调和灵活性方面遇到困难,因为他们要在这个类别中与更灵活的初创公司进行竞争。

最重要的是,软件开发是一个巨大的、无序的领域,人工智能生成的软件市场不会是赢家通吃的,就像今天的软件工程堆栈的不同部分有一个深入的、多样化的工具生态系统一样,在人工智能代码生成的世界里,将出现许多不同的赢家。

譬如,成功的初创公司可能只专注于自动化代码维护,或代码审查,或文档,或前端开发。为了追求这些机会,已经出现了一波有前途的新创业公司。

跨模态场景---NLP+CV

语言(文本)是认知层面的具象展现,另一种规模巨大、大家稀松平常可见的数据模态就是图像。试想,如果能将二者有机结合,将某一人、事、物不同角度的信息进行融合来进行生成任务,将会是很大的突破,效果也会比单个模态的生成效果来得好。

现在的问题已经不是要不要,而是怎么做了,跨模态信息的融合建模势不可挡。

笔者近期在做这方面的探索,下面试举几例。

1)输入图像,找到最匹配的古诗文描述

想起以前语文老师讲的笑话  说一个人到长城上玩  看到长城的巍峨 壮观的情景  感慨很久 突然憋出一句---“长城好长啊”...这就是所谓的“语言匮乏症”。

或是刚在经典拍了几张美图,不知道发朋友圈该写点什么话来衬图;亦或是见到一位美女,不知如何夸赞,尽可能的不落俗套,留有心意

图片

用文化一点的表达方式来夸赞一位美女

2)输入文字,寻找最为匹配的图像

在新媒体写作时,找到最符合文字内容的配图是一个常见场景。

图片

以文搜图,尽量匹配文字内涵

3)基于商品图像的营销文案生成

输入拍摄的服装商品图,让AI推荐几段恰如其分的营销话术,在此基础上稍微润色即可出文。

图片

给定垂直领域的图文数据对让模型学习,模型学习的效果很可能要比入行不久的新人要好

上述功能可以在笔者搭建的demo环境http://36.137.246.102:88/上进行体验。

关于落地的担忧

在浏览了生成性语言模型的各种可能的商业应用之后,有三个大的观点值得提出。

第一个大问题,一些读者,尤其是那些没有花很多时间亲身使用当今语言模型的人,可能会问自己:这里描述的用例实际上是可信的吗?生成式语言模型是否真的能够有效、可靠地起草一份合同,或与销售对象来回发送电子邮件,或起草一份立法---不仅仅是在高度可控的演示或研究环境中,而是在面对现实世界的所有混乱情况时?

答案是肯定的。

我们已经在以前的文章中详细研究了支撑今天的语言人工智能革命的技术突破,但有一个重要因素值得在此提及:

人类目前产生的绝大多数内容---我们写的信息、我们阐述的想法、我们提出的建议---都是非原创的,正所谓“太阳底下没有新鲜事”。

这听起来可能很残酷。但事实是,大多数网站资讯内容、大多数电子邮件交流、大多数客户服务对话,甚至大多数法律都不包含真正的新颖性:确切的词句各不相同,但基本的语法结构、语义内涵和概念是可预测和一致的,与之前已经写过或说过亿万次的语言相呼应。

今天的人工智能已经变得足够强大,可以从它所训练的大量现有文本中学习这些基本结构、语义和概念,并在提示(Prompt)下以新的输出令人信服地复制它们。

我们目前最先进的语言模型不可能产生像弗里德里希-尼采(Friedrich Nietzsche)那样具有颠覆性的原创性的文章,他前所未有的想法重塑了几个世纪以来的哲学思想。

但是,在上述任何一个使用案例中,或者在任何其他环境中,人类每天产生的内容有多少属于这个级别的创新?人人都是哲思家、内容创新者,这纯粹是瞎扯淡!

我们会发现,LLMs能够有效地将人类大量的语言生产自动化---那些本质上非原创的部分。

第二个大问题:生成性语言模型将变得如此强大的一个重要原因是,语言模型的任何输出都可以反过来作为语言模型的输入。这是因为语言模型的输入和输出模式是相同的:文本输入,文本输出。这是语言模型和文本到图像生成模型之间的一个关键区别。这听起来可能是一个神秘的细节,但它对生成性人工智能有深远的影响。

为什么这很重要?因为它实现了被称为 "提示链(Prompt Chaining,也叫Chain of Thought ) "的东西, 能够帮助大型语言模型解决复杂的算术、常识及字符推理等任务。

人类在遇到一系列问题时所产生的推理步骤,而它们的表现形式就是一系列的短句子(比如说在解答数学问题时所产生的中间推理步骤)。

同样,即使大型语言模型有令人难以置信的能力,但我们希望它们完成的许多任务过于复杂,无法由模型的单一运行来完成,即需要中间行动或多步骤推理的任务。提示链(Prompt Chaining)使用户能够将一个广泛的目标分解成各种更简单的子任务,语言模型可以连续处理,一个子任务的输出可以作为下一个子任务的输入。

巧妙的提示链使LLMs能够进行比其他方式更复杂的活动。提示链也使模型能够从外部工具中检索信息(例如,搜索谷歌,从一个给定的URL中提取信息),通过将这一行动作为链中的一个步骤。

提示链的一个说明性例子来自Dust,这是一家新成立的创业公司,建立了帮助人们使用生成语言模型的工具。Dust建立了一个网络搜索助手,可以回答用户的问题(例如,"为什么苏伊士运河在2021年3月被封锁?"),方法是搜索谷歌,取前3个结果,从这些网站上提取内容,进行总结,然后综合出一个包括引用的最终答案。

另一个有趣的提示链例子:一个应用程序,当提供研究论文的URL时,会自动生成一个总结该论文要点的Twitter thread(就是由一个人发布的一系列相连的推文,你可以用thread来讲述一个故事或在几条推文中分享信息,而不是将你的信息限制在280字的推文中)。

提示链将使由LLMs驱动的应用程序的创建更具有可组合性、可扩展性和可解释性。它将使复杂的软件程序的创建具有一般化的能力。在文本到图像的人工智能中,没有等同于这种递归的丰富性。

这把我们带到了第三点,也是最后一点:在LLM的产品化和操作化过程中,最重要的考虑因素之一是如何以及何时让人类参与其中。

图片

Chatgpt在其MLOps中涉及少量的认为监督工作,虽然数量不大,但是可以让模型的生成结果更接近人类自然语言的表达方式

至少在最初,大多数生成性语言应用不会以完全自动化的方式部署。对其输出的某种程度的人为监督(Human in the Loop,即人类在 AI 系统学习过程中提供指引, 由人类训练、测试或调整 AI 系统,帮助系统取得更可靠的结果)将继续是审慎的或必要的。其具体实施方案需要根据应用场景的不同而做相应的设计。

在不久的将来,人类用户对LLMs应用程序最自然的参与模式将是迭代和协作,也就是说,终端用户将是人为监督(Human in the Loop)。例如,人类用户将向模型提出一个初始提示(或提示链),以产生一个给定的输出;然后再是审查输出,之后调整提示,以提高输出的质量;在同一提示上多次运行模型,以选择模型输出的最相关版本;然后在将语言部署到其预期用途之前,手动完善这一输出。

这种类型的工作流程将对上面讨论的许多例子应用有效:起草合同、撰写新闻文章、撰写学术资助提案。如果人工智能系统可以产生一个50%,或75%,或90%的开箱即用的草案,这将转化为大量的时间节约和价值创造。

对于一些风险较低的用例--例如,编写外发销售电子邮件或网站资讯内容---技术将很快变得足够先进和强大,以至于用户在潜在的生产力提升的激励下,将感到舒适地实现应用的端到端自动化,完全没有人类的参与。

另一方面,一些对安全至关重要的用例,例如,使用生成式模型对个别病人进行诊断并提出治疗建议--在可预见的未来,在采取任何实际行动之前,需要人为监督(Human in the Loop)来审查和批准模型的输出。

但不要搞错了:生成式语言技术正在飞速改进,尤其是在美国,几乎是不可思议的速度,对一些长期对持有“生成模型“不可控、难以落地”偏见的NLP从业者而言是思想上的巨大冲击。在几个月内,预计像OpenAI和Cohere这样的行业领导者将发布新的模型,与今天的模型相比,这些模型在语言能力方面有了巨大的、跨步式的改进(这些模型本身已经非常强大)。

从长远来看,这一趋势将是决定性的和不可避免的:

随着这些模型变得更好,随着建立在它们之上的产品变得更容易使用和更深入地嵌入现有的工作流程,我们将把更多社会日常功能的责任交给人工智能,很少或没有人类监督。越来越多的上述用例将由我们授权的语言模型以闭环的方式进行端到端的决策和行动。

对今天的读者来说,这可能听起来令人吃惊,甚至是可怕的。但我们将越来越适应这样的现实---机器可以比人类更有效、更快速、更经济、更可靠地执行许多这些功能。

大规模的颠覆、巨大的价值创造、痛苦的工作失调和许多新的数百亿元的人工智能龙头企业就在眼前。

内容中包含的图片若涉及版权问题,请及时与我们联系删除