每隔一段时间,一项技术就会捕获全世界的想象力。从硅谷、华尔街、中关村、到世界各个角落的办公室和大学教室,人们都在热烈地讨论ChatGPT及人工智能的未来。
面对这个刚刚开始的颠覆性变革,我们有太多问题想问,有太多问题值得思考。但本文将聚焦在:
ChatGPT对于创业公司来说意味着什么?
这一波AI产品可能的应用场景有哪些?
未来可能会形成怎样的新AI产业生态?
我们根据GPT-3 Demo及其他相关网站,来看看海外当下,有哪些热门创业方向(App和应用案例)
1
引子:为什么这次不一样
最近几乎所有大型人工智能的前沿突破,都来自巨头公司,因为他们拥有强大的资金和算力。ChatGPT与上一波人工智能产品苹果Siri、微软小冰的核心不同是,过去都是小模型,而如今是真正的大模型。
以前,小模型的人工智能中,其实包含了若干Agent(类似于执行具体任务的程序),一个专门负责聊天对话、一个专门负责诗词生成、一个专门负责代码生成、一个专门负责营销文案等等,如果想添加新功能,可以去训练新Agent。一旦用户的问题超出了这个范围,人工智能就会变成人工智障。
而如今的ChatGPT之所以被称为真正的人工智能,就在于采用了成百上千亿参数的大模型,比如GPT-3模型就有1750亿个参数。而GPT本身是一个单项模型,是从左到右进行阅读,所以更擅长“写作文”。与谷歌BERT不同,BERT是一个双向模型,可以联系上下文进行分析,更擅长“完形填空”,但GPT与人类的思维方式更接近,所以我们能看到基于ChatGPT的创意写作应用,或是制作绘本。
InstructGPT的技术逻辑:RLHF的主要改变在于人工监督数据与调整后的奖励模型;图片来源:OpenAI
但大模型的高昂投入,让普通创业公司难以为继,因此参与者都是科技巨头。2022年OpenAI的收入为3000万美元,但净亏损总额预计为5.445亿美元。而GPT3训练一次的费用,大概是460万美元。当模型被训练好之后,仍然有使用成本,目前ChatGPT单轮对话的平均费用,大概在0.01-0.2美元之间。
并且先发优势会非常明显,因为这里有一个“数据和模型的飞轮效应”。在GPT-3之后,OpenAI所有的模型都没有开源,而是提供了API调用。在这个过程中,OpenAI可以借助ChatGPT建立真实用户调用和模型迭代之间的飞轮,OpenAI非常重视真实世界数据的调用,以及这些数据对模型的迭代。
文本模型的训练成本;图片来源:东吴证券
对于AI的发展来说,工程的重要性不亚于科学,创建一个迭代反馈的闭环至关重要。这也将是后来者,赶超ChatGPT的重要难点。
那么,这股AI新浪潮对于创业公司来说,意味着什么?
2
对创业公司来说意味着什么?
OpenAI的创始人山姆·阿尔特曼(Sam Altman),曾对AI产业生态有过一个预测,他认为:
“将来应该会出现几个大型的基础模型,开发人员都将基于这些基础模型研发AI应用。但目前的情况依然是某一家公司开发出一个大型语言模型,然后开放API供他人使用。
我认为,将来在基础模型和具体AI应用研发之间会有一个中间层:出现一批专门负责调整大型模型以适应具体AI应用需求的初创企业。能做好这一点的初创公司将会非常成功,但这取决于它们能在「数据飞轮」上走多远。
创业公司会训练自己的模型,只不过不是从头开始。他们将采用基础模型,这些模型已经经过大量的计算和数据训练,然后在这些模型之上进行训练,为每个垂类创建模型。
他们所做的 1% 的训练,对于应用来说至关重要。我认为,这些创业公司将会非常成功,并且与众不同。可能包括一段时间内存在的 prompt engineering(提示工程)或基础核心模型(core base model)。
将来承担模型训练角色的应该不会是初创公司,但这些企业可以在上述的中间层角色中发挥巨大价值。我认为中间那一层会创造很多价值。”
总结来说,这个产业生态可能会是:
1、基础设施层:在最底层,是提供芯片、云计算等基础能力的厂商。
2、模型层:大公司负责训练基础大模型,这种基础能力可能会逐渐走向开放。一种可能是,最终形成类似ISO 和Android两大阵营,或是类似云计算的格局,一般这种量级的生态圈最终不会容纳太多家,但也不会被一家垄断。目前来看微软(OpenAI拔得头筹)vs谷歌(旗下有Deepmind)已经开战,但巨头的基础模型之间是否会形成差异?以及会形成怎样的差异性?这个问题也值得观察。但无论如何,这将会是继移动互联网之后,下一个史诗级的重大战略窗口,中国公司也需要积极加入战局。
国内外互联网大厂纷纷推出自研AI大模型;图片来源:安信证券
3、应用中间层:在大模型的基础上,不同垂直领域会有各自的特殊情况,比如医疗、司法等等领域,这些特定领域的数据本身也是稀缺的。创业公司可以扎根各自的垂直领域,基于特定的数据集+行业knowhow,形成各自的商业化路径,并保护用户数据和隐私。
4、重构“AI应用”?此外,在Sam Altman所说的应用中间层之上,在AI应用端本身,是否存在一个重构当下App的机遇?是现有玩家往AI转型,还是会涌现新玩家,这个问题也值得持续观察,还未达成市场共识。
在现有玩家往AI的转型中,最典型的莫过于微软。微软计划将ChatGPT模块,应用于搜索引擎Bing中,以对抗占据主导市场份额的谷歌,New Bing可能在今年一季度就能落地。搜索引擎还只是前菜,微软还计划将OpenAI与自身业务进行更大程度的融合,比如嵌入Word、PowerPoint、Excel、Outlook等等,对于用户来说,只需给人工智能直接下达指令,就能获得自动生成的文章、Excel表格、PPT,或是电子邮件,这将是AI进入C端的一次巨大突破。
而在新玩家中,涌现了一批AI绘画、AI编程、各类自动化工具等等方向的创新项目,类似当年移动互联网,这些新方向也有可能诞生一批优秀的新公司。
现在,已经有一些新老玩家,在使用已经训练好的基础模型,然后再基于这些模型进一步优化,例如GitHub的Copilot功能,以及Notion的协助功能,都是基于OpenAI的相关模型开发而来。随着模型不断被AI应用平台使用,下一步就是训练数据,甚至整个业务逻辑。新老玩家们,未来可能会在一些领域激烈竞争。
这个发展过程也许可以类比云计算。当年云计算最初通过便利性,来吸引用户把计算放在云端。然后随着计算逐渐迁移到云端,数据也开始搬迁到云上,然后再是整个公司的业务逻辑,都在云上运行。基于OpenAI GPT-3、Deepmind Gopher等基础模型,各个应用层面的新老玩家,未来都会在“云”上提供更丰富的服务,最终形成庞大生态。
我们也非常想知道,基于ChatGPT,当下全球最流行、最有潜力的应用场景到底是什么?我们做了一个初步的研究,根据:
-
GPT-3 Demo所罗列的651款App(这是一个实时统计基于GPT-3所诞生的App的网站,不断更新中)
-
当下市场上热门的AIGC应用
-
ChatGPT自己给出的答案
我们罗列了10款热门应用,其中的一些或许会令你眼前一亮,一些或许还比较稚嫩,但我们认为AI变革这次不一样,在大浪潮的初始,这些探索者值得被持续关注。
-
AI写作:Jasper AI
-
AI写作:Copy.ai
-
AI声音:podcast.ai
-
AI绘图:Midjourney
-
AI绘图:Stability AI
-
AI修图:Lensa
-
AI音视频编辑:Descript
-
AI编程:GitHub Copilot
-
AI笔记:Mem
-
AI游戏:AI Dungeon
1) AI写作:Jasper AI
作为 AIGC 圈新贵,Jasper AI已经不是一个陌生的名字。在去年10月,Jasper AI就宣布了以15亿美元估值的A轮融资,而Jasper AI的产品上线也就18个月时间。
Jasper以“AI文字生成”为主打产品,用户借助AI可以轻松生成各类文字,例如帮着起Instagram的标题、编写TikTok视频脚本、广告营销文本、博客、电子邮件内容等等,这些功能,令Jasper在社交媒体、电商、视频制作等多个领域非常火爆。
Jasper的底层技术就是OpenAI的GPT-3,但团队在此基础上,对语言模型做了大量的改进,特别是在广告和营销的内容生成这部分,Jasper也加大了用户在生成内容时的反馈机制。相比于其他AI写作应用,Jasper更专注于长篇内容。
除了文字内容外,Jasper也推出了AI绘图产品Jasper Art,与其他热门产品类似,也是用户输入图片描述,AI会自动生成图片。当然Jasper 的定位会更偏向市场营销应用设计。
2) AI写作:Copy.ai
Copy.ai与刚刚介绍的Jasper AI类似,也是基于GPT-3模型的AI写作创业项目,Copy.ai可以用几秒钟,就生成高质量的广告和营销文案,针对ToB企业场景。
Copy.ai也引入了人工修正,不断训练出更优秀的人工智能模型。Copy.ai的核心目标不是完全取代人工,而是通过AI的建议,将人类创作文案的构思阶段缩短80%,营销人员用自己的创造力来填补剩余的20%。Copy.ai提供了大量的场景模版,几乎涵盖了市场营销需要文案的所有场景。
对于用户来说,只需要输入标题和简单的几句话介绍来描述需求,例如根据内容发布平台的调性,来选择文章的调性。如果有语法错误,还可以通过另一款应用Grammarly来自动修改。
3) AI声音:podcast.ai
Podcast.ai是一个完全由AI生成的播客,每周都会深入探讨一个新话题。
Podcast.ai的第一期节目引爆全网,Podcast.ai通过乔布斯的传记,和收集网络上关于他的所有录音,用Play.ht的语言模型大量训练,最终生成了一段美国知名播客主持人Joe Rogan采访乔布斯的播客内容。在这期播客里,乔布斯的各种语音、语调都模拟的非常相似。
在这段20分钟的对话里,乔布斯“死而复生”,与Joe Rogan讨论了关于曾经的大学时光、对计算机的看法、工作状态以及信仰等等。
图片来源:https://podcast.ai/
Podcast.ai所采用的Play.ht,是一个AI文本转换语音生成器,模型覆盖了数千种说话的声音,还可以学习人类的情感、说话语气以及笑声等。从文本语言模型到音频语言模型时,音频数据速率增高是一个大难题,一个句子的几十个字符用音频波形表达,所包含的数值往往多达数十万个。此外,由于文本和音频之间的一对多关系,也即是一个语句可以有不同的说话风格、情感等,这也成为了语音模型研究中需要解决的问题。
总体来说,Podcast.ai的效果已经相当接近真人,感兴趣的朋友可以去这里听一下Podcast.ai关于乔布斯的这期节目:https://podcast.ai/
4) AI绘图:Midjourney
Midjourney是一众AI绘画产品中的佼佼者,高质量、高精度、耗时短,在网上非常出圈。Midjourney目前直接搭载在Discord频道上,你不需要写代码,只需输入描述指令,AI就帮你生成惊艳的绘画,这个过程和发微信聊天几乎一样。
图片来源:https://discord.com/channels/662267976984297473/@home
如今,无数人都在用Midjourney生成图片。例如《经济学人》用Midjourney生成的图片做了杂志封面:
以及《空间歌剧院》,在美国科罗拉多州博览会上获得一等奖,随后其作者Jason Allen才透露,这幅作品是出自Midjourney AI之手。
再比如英国艺术家Daniel Oxford,运用Maya、PS等软件配合AI辅助创作,一幅幅油画质感的CG从他手下产生:
又或者是当你输入“指环王”,Midjourney生成的是这样的:
由于用Midjourney画画,基本上和用微信聊天差不多,所以你的描述非常重要,比如你需要想清楚:
- What:种类是什么?油画?水彩?陶瓷?木雕?
- Who:主题是什么?人?物?景?
- When:何时?早中晚?季节?年代?时期?
- Where:何地?什么场景?陆海空?外太空?
-
How:怎么画?风格?引擎?渲染?照明?镜头?清晰度?真实度?
这些问题都可独立,也可搭配在一起,看你想让AI画到什么程度。描述的越多,AI会以自己的理解,按权重优先级进行绘制;而如果描述的少,AI也会根据自己的理解绘画,也许能给出惊喜的创意。
建筑师也在使用来寻找灵感。例如芝加哥建筑师斯蒂芬·库拉斯(Stephen Coorlas)使用Midjourney为芝加哥北岸地区设计的露天展馆。
图片来源:库拉斯建筑(Coorlas Architecture)
基于这个概念图像进行简单的3D建模后,库拉斯将这些模型的图像反馈给Midjourney,并令其迭代建筑图纸。然后就得到了这个展馆的建筑图纸,虽然还缺乏细节。
图片来源:Coorlas建筑
扎哈·哈迪德建筑伦敦工作室的计算研究小组(ZHACODE)设计师Tim Fu,使用Midjourney设计的钢琴家的住宅:
由Tim Fu使用Midjourney设计的钢琴家的住宅。图片来源:Tim Fu
这些进步,得益于生成扩散模型和多模态预训练模型等技术的快速发展,在图文生成效果上有了显著进步,让AI可以快速、灵活地生成不同模态的数据内容。
在2021年之前,AIGC还主要是文字生成。而新一代的模型可以处理任何内容格式,包含文字、语音、代码、图像、视频、3D模型、机器人的动作等等。比如近期以DALL-E2和stable-diffusion为代表的AIGC技术在图文生成效果上,能够广泛应用于内容生成、编辑和创作等领域。
5)AI绘图:Stability AI
Stability AI也在去年10月宣布完成了1.01亿美金的种子轮融资,估值达10亿美金,Stability AI成立仅2年时间。
与Midjourney类似,Stability AI也是一个开放的AI绘图工具,用户输入描述图片的文字信息,来创建图像。
图片来源:https://stability.ai/
Stability AI是一项开源技术,用户可以在其代码的基础上构建与设计、电影、增强现实、视频游戏、广告甚至电子商务相关的应用程序。通过这套开源技术,Stability AI的社区已经创造出了几乎涵盖所有媒体内容形态的AI模型,包括图像、语言、音频、视频以及3D内容。
图片来源:https://stability.ai/
Stability AI在训练自己的模型时,也花费了很高的成本。根据Business Insider的报道,Stability AI目前拥有一个,在AWS中运行的由4000多个Nvidia A100 GPU组成的芯片集群,用于训练Stability的各个AI模型,这导致其在运营和云服务方面的支出超过了5000万美元。AI公司在训练方面的确耗资巨大,此前微软对OpenAI的10亿美元投资,其中一半是用云计算等服务折算的。
由此也可以看出Stability AI的野心,它并未聚焦于某个单一场景,而是通过开源来拓展场景,再去寻找具体的商业模式。当然,更大的想象空间,也需要更多的投入,所以Stability AI在种子轮就拿了这么多钱。
Stability建立的社区,包括了全球各地的专家与合作伙伴,他们正在为图像、语言、音频、视频、3D和生物学等,开发最先进的开放式人工智能模型。
图片来源:https://stability.ai/
6) AI修图:Lensa
刚刚介绍了几款AI绘图应用,下面我们要介绍的,是一款AI修图产品。
图片来源:https://prisma-ai.com/lensa
Lensa的日常操作,其实与美图秀秀、VSCO类似,只不过后者需要手动,而Lensa加入了一些AI能力。Lensa在Twitter等社交媒体上爆红,主要是它的Magic Avatars功能,可以供你生成魔法头像。用户需要上传10-20张自拍照,然后选择一个性别,Magic Avatars就会通过AI自动生成上百张不同风格的头像。
这些AI生成的照片风格各异,有动漫效果、科幻色彩、水彩感、或是油画风格等等,一下子形成了病毒式传播。此外,这是一个完全付费的产品,生成的这50/100/200张的价格分别为3.99/5.99/7.99美元。
图片来源:https://prisma-ai.com/lensa
Lensa引爆了C端,这也是对AIGC市场非常重要的价值。
7)AI音视频编辑:Descript
去年11月,Descript宣布了5000万美金的融资,这一轮由OpenAI旗下的OpenAI Startup Fund领投。
Descript想结合AI实现的目标,是重新设计视频编辑器,让制作音视频的过程,像修改Word文档和做PPT一样简单。
图片来源:https://www.descript.com/
Descript首先第一个打破的,就是传统编辑器中的时间轴概念,以期在不触及时间轴的情况下完成各种新的操作,可能是对视频中的每个画面利用AI做更多操作,例如删除视频里面的背景,添加新画面等等。
第二个好用的功能是语音克隆,也就是用户先录好一段声音后,后续只需要写文本就能实现整个录制,AI会用克隆好的声音自动录制出来。也可以选择其模版库里的其它声音模版。当你对文本进行修改,录音也会自动调整。
第三是通过AI自动删除语气词或是重复的短句。剪辑过音频的朋友都知道,我们日常说话时其实会有大量的语气词或是重复词,说的时候没感觉,但在听录音的时候非常明显。但这种剪辑很麻烦,需要一点一点去抠。如今通过AI自动处理,很方便也令音视频更加专业。另外就是字幕处理,Descript会根据上下文自动调整字幕的停顿断句,也会自动补充各种日常习惯语法。
图片来源:https://www.descript.com/
8) AI编程:GitHub Copilot
AI编程也是近几年新崛起的重要赛道,美国风投界认为2023年AI编程投资会非常火热。
GitHub Copilot是微软旗下代码托管平台GitHub推出的AI编程工具,Copilot的主要定位是提供代码补全与建议功能,可根据当前文件的内容和光标位置自动生成代码。
图片来源:https://github.com/features/copilot
GitHub Copilot支持的编程语言包括Python、JavaScript、TypeScript、Java、Ruby和Go。有了GitHub Copilot,软件开发人员可以在编辑器中使用内联注释来获取JavaScript、Python、TypeScript和Ruby等编程语言的代码建议。
然后只要用户给出提示,GitHub Copilot就可以根据上下文自动编写完整的函数,或实现完整的功能,包括docstrings、注释、函数名、代码。
在底层技术方面,GitHub Copilot就是基于OpenAI的文本生成技术。曾经有GitHub Copilot高管对其描述是:
“这就像有一个小机器人坐在你的肩膀上,你们坐在桌子的同一侧,目视同样的东西,当这个机器人可以‘出手’的时候,它会自动为你提供帮助。……最近一项研究的统计数据非常有趣,该研究要求程序员从头开始编写Web服务器代码,程序员在使用Copilot的情况下完成这一任务的速度要比不使用Copilot快50%以上。然后,我们从遥测中得知,在启用这一功能的情况下,在程序员编写新代码的过程中,例如Python 等流行编码语言中,Copilot为程序员编写了多达40%的代码。这是个了不起的成就。”
图片来源:https://github.com/features/copilot
9)AI笔记:Mem
Mem是一款专注于工作的应用程序,可以利用AI自动组织笔记。Mem也是OpenAI领投的,投资金额为2350万美元,投资后估值为1.1亿美元。
Mem由华裔工程师Dennis Xu和Kevin Moody共同创办,他们曾表示,Mem与传统记事应用程序的不同之处在于它的“轻量级”。
简单来说,Mem像是一种整合个人信息数据的工具,将你的个人邮件、日历活动和笔记信息等自动汇集到一起,并利用AI来自动整合这些信息,并在特定的时间点上给你所需要的。
在工作流程上,Mem主打快速记录与内容搜索,围绕搜索和按时间顺序排列的时间线,可以附加主题标签,标记其他用户,并为笔记添加循环提醒信息。
当然,快速记录信息只是最开始的第一步,Mem如何将信息数据从其他平台快速同步整合到Mem上更为重要。Mem在背后形成了一个知识图谱,由一个个Node(节点)组成,每个节点都是一个Entity,这个Entity可以是一条Mem(笔记),也可以是某个具体的日程活动、一个联系人信息或者是一条任务等等。Mem会通过AI将这些不同节点上的Entity进行分析和连接,比如你在一条笔记中提到了某位朋友推荐的一家餐馆,这两个信息点都会在知识图谱中进行分析和归类,并自动形成关联,当外部条件触发时,这些信息就会自动呈现在用户的面前。
Mem也做了AI Writer的部分,可以说是基于个人信息数据的AI写作助理。比如一个可能的场景就是当你在写作中提到某个日程安排或者某条视频内容时,Mem会自动将这些信息自动同步到文档中,同时这个AI Writer还具备GPT-3的所有能力,可以将各种网上的信息比如最畅销的10本书等等进行自动搜集和补全。
10) AI游戏:AI Dungeon
AI Dungeon是一个由AI驱动的基于文本的RPG游戏,也可以说是由AI驱动剧情发展的游戏。通过AI应用,用户可以在能想象到的任何场景中,去进行角色扮演编写故事,与其他人物互动。
AI 会根据故事大背景设定的世界观,来设计不同角色的性格和任务,并且实时根据用户的行动,回以新的事件和对话,对每个人都会反馈出不同的答案和行动,所以在剧情拓展方面,不可预测并且自由度空前。
图片来源:https://play.aidungeon.io/
AI Dungeon目前使用GPT-3的模型来生成故事。
AI Dungeon文本游戏虽然还很稚嫩,但AI应用于游戏代表了游戏业的未来。
图片来源:https://play.aidungeon.io/
AI Dungeon代表了ChatGPT对游戏行业可能的颠覆性。当AI应用于游戏,游戏里的剧情将变得不可预测,而是会根据每个用户的选择,形成无限的可能性。并且游戏里的NPC都可以有各自的“生活”,或是影响游戏结局,从而给玩家带来独特的体验。
当然,当下的AI游戏大多数还是基于文本,所以其互动效果类似ChatGPT,事实上这块能力也是基于OpenAI的语言模型构建的。不同点在于游戏版会更具逻辑性,也能够保留对过去交互的记忆,并且是基于大的故事背景而做出的互动。
但在可以想见的未来,当游戏制作时,把游戏中的每一个人物都设计一个AI模型,那将是AIGC深度开发的巨大潜力与机会,制作出真正沉浸感的新游戏。
AIGC会令游戏行业变得更加灵活与复杂;图片来源:A16Z
这10款应用只是AIGC领域的冰山一角,从GPT-3、Bloom的文本生成,DALL-E和Stable Diffusion的图像生成,以及RunwayML、Make-A-Video的视频生成,各类生成式AI产品在近几年中如雨后春笋般涌现。
正如OpenAI CEO Sam Altman所说,AI将是移动互联网后新的基础平台,之后会出现新公司的爆炸式增长。
当然,对于中国来说,当务之急可能还不在应用层,而是模型层。众多有意思的AI产品,背后的基石都是GPT-3.5等基础模型,而国内现在还缺乏一个足够好的基础大模型。这就类似于新AI时代的“IOS、Android”、或是比喻成“云计算操作系统”,如果没有它也就根本无法开发应用,这是一个必须的基础设施。而基于“数据和模型的飞轮效应”,AI大模型开发的时间窗口正在迅速缩短。
当然,目前的GPT-3.5,并不具备真正的推理能力,虽然ChatGPT能回答各种问题,但事实上对回答背后的意义,或是数学公式的理解、诗词背后的情感,ChatGPT还是没有概念的。GPT从1.0发展到3.5,迭代的是收集整合和语言组织能力,而非思维层面。
就像清华教授钱颖一曾经说的,未来人工智能在知识层面会做的很好,但“大学教育的价值不在于记住很多事实,而是训练大脑会思考。”
创造性思维=知识×好奇心和想象力,这在AIGC时代将尤为重要。
评论
沙发等你来抢