本文作者金沙江创投张予彤,阅读原文请点击这里
本文主要关注这4个公司:Descript,Jasper,Runway,Inflection.ai
大算力:大模型需要大规模的底层芯片来处理大量数据并执行语言理解和生成所需的复杂计算。这包括功能强大的 GPU集群,可以加速训练和推理过程。
大参数:GPT 1.17 亿参数,到 GPT-3 1750 亿参数,不断突破能力边界的GPT模型是一部暴力美学的代表作,也代表了一种AI发展的价值观,以大计算为杠杆实现智能。大模型的意义在于通用性和极强的泛化能力,刚出现的时候还有很多的局限性,但每一次都做到了以前无法想象的事情,并且还将继续出现更多新的突破。
大架构:
- ChatGPT 使用 Transformer 架构,该模型在 2017 年出现在一篇名为“Attention is All You Need”的论文中,以处理大量数据和处理语言长期依赖性的能力而著称。可以并行化,大大减少了模型的训练时间。可以在大型文本数据语料库上进行预训练,也支持针对特定任务的微调。
- DALL-E 2结合预训练CLIP模型与扩散模型(Diffusion Model)实现以文字生成图像。当前常用的扩散模型架构源自“DDPM: Denoising Diffusion Probabilistic Models”:在训练中学习如何给图像添加噪声直至趋近随机高斯噪声,由于设计的模型可逆,生成是训练的逆过程,将随机高斯噪声通过训练好的模型逐渐去噪直至生成图像,它的结构类似多个VAE的叠加,每次只学习一个增量,降低了学习难度从而保障生成质量。
ChatGPT的闪亮登场与Google 的Code Red
生成式AI的一个爆炸性产品是ChatGPT,于22年11月一经推出,马上引起了病毒式的传播,一时间用户和ChatGPT的聊天记录充斥着所有的社交媒体。这引起了Google的警觉并正式宣布进入Code Red状态,紧急召回了两位创始人拉里·佩奇和谢尔盖·布林商量对策。作为AI和搜索领域的万亿美金巨头,搜索是Google的基石业务,也是常青的互联网入口级产品,每天有数十亿用户通过它搜索信息。
这次的Code Red也来自于ChatGPT的爆火,同时一部分用户更喜欢通过问答而不是关键字搜索来获取信息;这个危机事件中看到机遇的一方则是微软,早在2019年,微软就投资了OpenAI 10亿美金,成为主要的外部股东,同时也联合OpenAI推出了Github Copilot。在ChatGPT出圈后,也开始积极推进数年累积投资100亿美金增持到49%持股与未来收益权的交易,通过加深与OpenAI的合作,积极将ChatGPT整合到Bing,正面挑战Google的搜索业务。
为什么Google没有发布ChatGPT这种产品?搜索引擎旨在帮助用户在互联网上查找信息,它的工作原理是对网站内容进行爬虫和索引,然后使用算法对这些页面与用户搜索查询的相关性进行排名。Google返回的是与用户查询相关的网页列表,而 ChatGPT 是根据输入的内容生成响应。它不会对内容进行事实核查,也无法区分经过验证的事实和错误信息,并且不提供信息来源。它还会编造答案,这种现象被研究人员称为 hallucinations。
这些因素会带来很多业务中的法律风险,也许就是Google迟迟没有推出产品的顾虑,让用户可以相信他们从搜索获得的答案。很期待它如何做出响应,融合大模型和搜索,做出更好的用户体验。
如果我们问ChatGPT:“是不是可以先用ChatGPT获得答案,然后再去Google验证信息?”它也会认可这是个不错的方法,虽然调侃了它的无中生有,但它的回复的思维逻辑又无懈可击。
ChatGPT也定义了人与AI的关系:如鱼得水,如胶似漆。ChatGPT最大的创新就是 RLHF (Reinforcement Learning with Human Feedback),通过不停止的收集人类的反馈,让机器从他们犯的错误中学习并相应地调整行为。人类可以不断地帮助AI在决策过程中变得更加高效和准确,也减少了额外的人工标注的成本。人机结合进行改进的能力终将产生颠覆性的影响,也是一种人类文明的汇集,承载和传承。
生成式AI将让科技与创作走向大众
提示工程,Prompt engineering,是一个门槛最低的编程语言。掌握智能技术将会成为每个人的必备技能,当编程门槛已经降到了提示工程,没有严格的语义,只要会自然语言,就可以将人类的想法转化为可重复执行的程序。不需要训练更多的人成为程序员,但必须把它当做一个编程工具去学习。常见的高级编程语言如Python、Java、JavaScript等大多诞生于90年代。未来的某个时刻,对于没有经过技术培训的普通用户来说,如何使用AI系统的能力也会是一项职业必备技能,就像今天的白领工作者都必须具备使用搜索引擎和Office办公套件的能力一样。
Prompt是一个问题或者指令,也可以是输入数据和用例示范,用于指导 AI 系统生成响应。今天提示的微小改变都会对AI的结果质量产生关键的影响,使用者还是需要理解AI系统的能力和每个模型特定的局限性。
学习如何找到明确的Prompt,不产生信息损失,也没有信息混淆,而不是编写程序本身。与大多数工程一样,这也是一个持续迭代的过程,要灵活的运用对话记录来指导AI。在提示链中,我们可以强制模型遵循一系列的“推理”步骤来纠正模型的错误,比如提示模型引用正确的来源来将模型推向正确的方向。还可以创建工具来存储困难任务示例的“测试集”,评估新提示的质量是否在原有基础上有改善。
在未来的生产力年代,我们每个人都需要成为超级用户Pro User,才能真正的掌握表达思想的道具。当然也可以期待Prompt变得越来越容易,模型变得越来越智能。
内容创作的“零门槛”化。我们生活在一个内容爆炸的年代,技术一直以来做到的就是不断的降低内容生产的门槛,让没有多年学习和经验的人,也参与到内容生产中来。
比如画家需要表达需要审美,技法,构图的综合体现。摄影的出现,就让需要表达的人可以摆脱对画师技艺的要求来进行艺术创作。这可以带来更加多样化和包容性的内容生态系统,任何人都可以参与创意、思想和艺术的创造和传播。
同样,人工智能生成的内容技术也在让内容制作过程进一步的降低门槛。
生成式AI带来的10倍效率提升
在内容生产效率上,AI 可以快速生成大量内容,并且只需最少的人工输入,这可以为企业节省时间和降低人力成本。 尤其在问答,长文档的总结等任务上,例如Jasper主张其对营销文案10倍的效率提升;在更为严肃的科研写作领域,Nature的一篇新闻也指出,至少4篇文章将ChatGPT列为论文的Co-Author。
而编程领域的应用同样激动人心:开源是软件能够迅速发展起来的核心,也为大模型提供了数十亿行代码的训练数据。这些工具的目标不是要取代程序员,而是要让像 Codex 和 Copilot 这样的工具与人类“结对”,以提高编程的效率。
比如遇到不熟悉的语言,API接口,SQL查询数据,甚至企业里维护的legacy代码。很少有开发人员可以同时精通所有的编程语言,包括 C++、Java、Node.js等等。很多程序员也是从 StackOverflow上面复制粘贴代码片段。当然仍有很多场景还不适用导致准确率不高,需要去Debug AI生成的代码,反而会花费更多的时间。
ChatGPT在编程任务上展现出了比Copilot更大的想象空间:Copilot还是只能做到自动补全。阅读、建议和修改文本以创建传统的软件程序。Copilot是无状态的,用户只能通过修改prompt重新生成代码。语言模型本身不跟踪状态。而ChatGPT在其中跟踪从一个prompt到下一个prompt的状态,可以根据用户反馈迭代输出,实现了复杂的“会话”。比如如果在对话中提供了更多的上下文,API 提示和数据库Schema等背景信息,可以更好的帮助AI的代码生成。甚至可以在提示中教授算法。
规模化与个性化:生成式AI可以支持内容制作的规模化,以满足突然出现的大量受众的需求,或同时支持几十种语言的内容生成。比如在Tiktok上做多语言投放的内容的营销文案:包括文本、图像和视频。同时人工智能生成的内容可以为不同的目标受众创建个性化内容,为用户提供更具相关性和吸引力的体验。 比如用文字,语音驱动的数字人视频内容。
AI的局限性
质量不高:AI 还是基于概率模型生成的内容,往往存在逻辑错误,比如误解问题,混淆了不同信息的输出位置,也会无中生有捏造事实。 更加适用于对质量要求不高,错误容忍度高的场景,或者嵌入专业技能的人来做质量判断的工作流程。
成本还需要进一步的下降:文字的成本大概是几美分,但如果是生成3D模型,今天的成本依然在10美金左右,还无法真正普及。
道德问题:AI 生成的内容可能会引发错误信息的传播以及使用 AI 生成的内容冒充个人带来的安全隐患。 比如可以通过Deepfake技术,替换视频中的内容。
价值偏见:人工智能生成的内容是基于它所训练的数据,也会继承人类认知中对于性别、职业、种族的偏见,会产生很多种族主义和性别歧视的回答。
对数据的依赖:人工智能生成的内容依赖于大量数据来训练模型,如果数据不具有代表性或多样性,则生成的内容也不会多样化或具有代表性。 比如问他FTX是否安全与合规,因为训练数据截止于2021年,它会给出与现状完全不同的答案。
法律合规:AI 生成的内容可能面临法律挑战,例如侵犯版权,或者其产生内容的知识产权归属问题尚不明确。比如国内一度盛行的AI换脸应用“ZAO”,以及Copilot是否复制代码引起的对于微软合规使用Github数据的讨论。
危险信息:比如可以让他解释如何做恐怖袭击。
未来的展望
在数据维度,ChatGPT是基于2021年及之前的数据而训练,还不能实时更新最新的数据或者连接互联网,执行程序拿到反馈去优化模型,或者在模型的风格上更加的微调以适应个人风格和偏好。试想如果未来这些成为可能,将会给我们的世界带来多大变化?
在模型维度,不断扩大模型参数的暴力美学并非唯一的路径,例如披露的GPT4的参数量就并不会显著多于GPT3的1750亿的规模,如果未来的方向不会是参数规模越来越大,除了增加数据和参数规模外,大模型的架构会如何演进也同样令人期待。
大模型也给AI系统软件带来的挑战:压缩、硬件加速和在边缘的部署,都仍有提升的空间:AI模型的数据结构化,比如把可信的知识放在一个可查询的结构化的数据库里,可以进一步的压缩大模型的规模,提高结果的可信程度;AI模型的存算分离,可计算的模型也可以抽离出来;随着边缘计算、机器人的普及,如何适配异构硬件环境,支持更多的智能终端。
在商业与生态上,未来将如何分工?大模型的预训练成本需要至少上亿元的前期投入(Stable Diffusion的训练使用了4000 个英伟达 A100 的 GPU 集群),很难也没有必要重复通用泛化的建设基础设施底座。早期以探索前沿AI为核心目标的公司:Deepmind被Google收购提供支持;OpenAI最开始是非盈利组织,后面微软的不断注资,都是依靠着巨大的算力,数据和资金成长起来的。
初创企业的机会在哪里?
- 大模型需要丰富的插件生态,围绕基础模型的ISV插件生态是初创企业的机会
- 基于垂直产业的小模型也可以在差异化的场景,与大模型形成有效的互补
我们相信,基础的通用大模型与场景专精的中小模型或者插件,将会把AI商业化带到下一个里程碑。
推荐关注 1:Descript 可以像编辑文档一样剪辑视频
推荐理由:虚拟世界里最重要的就是内容创作者生态,不断的降低创作门槛才能释放新的生产力。Descript 定义了下一代易于使用的视频编辑平台,可以像编辑文档一样,剪辑视频。拍摄视频的成本还是很高的,需要布景灯光,准备脚本,但录制的过程,如果创作者没有经过专业的训练,就会存在静音,填充词和出现口误。Descript把AI巧妙地应用到了视频纠错这个高价值场景里,既发挥了AI的效率,又克服了技术今天原创内容质量不高的局限性,打造了基于现有技术成熟度的人机协作创作高质量内容的完美场景。
成功要素
创始人Andrew Mason是之前美国最大的团购网站Groupon的创始人,成功带领公司在2011年上市,作为主导过百亿美金的连续创业者,Andrew最初切入的播客音频剪辑市场并不大,但几乎统治了这个市场,伴随着视频编辑能力的完善与客户向视频创作的转型,Descript顺势切入了视频编辑这个更大的赛道。
Descript做了精妙的市场定位与差异化竞争策略,并不直接与专业的视频编辑工具如Adobe AE竞争,仅提供滤镜和绿幕等一些基础视频编辑能力。核心亮点是准确的ASR提取文本,并基于文本对视频内容进行抽象与关联,让创作者可以基于文本,段落等结构化信息来对视频进行剪辑,剪辑后也可以导出到更多专业工具中。
Descript采用了Freemium的模型,提供每月1小时剪辑内容的免费账户到30小时每月的Pro(30美金/月)的付费账号,让业余爱好者可以低门槛尝试。为了推广产品让创作者进行背书,Youtube等创作平台发布内容,并且为Descript带来成交客户的,可以从客户第一年的收入中获得15%的分润。
作为一名主导过上市公司的连续创业者,Andrew在资本市场上也动作频频,2019年A轮融资同时宣布收购了Lyrebird,为用户提供了杀手级功能Overdub,可以在用户口播文本中增改文字让视频内容自动生成。在2022年大模型应用井喷的时代,引入OpenAI领投的新一轮融资,2x估值并且引入OpenAI的核心技术背书。
推荐关注 2:Jasper 2年近亿美金ARR的AI写作服务商
推荐理由
Jasper是连续创业者的赞歌,也是创始人第3次在营销科技赛道的创业,通过上一段Proof积累的场景理解以及2.5万名信任他们的客户,借力GPT3的惊艳效果在2年内做到近亿美元ARR,验证了生成式AI的规模商业化能力,尽管面临ChatGPT的挑战,Jasper团队积极推出Jasper Chat以及Jasper Art拓宽产品线提高TAM,也有望成为首个破亿ARR的生成式AI公司。
成功要素
三位创始人是Martech领域的连续创业者,在发起Jasper之前已经在营销场景经历了7年的时间,从最早的咨询公司Market Results,再到17年发起Proof帮助企业为用户提供个性化的登录界面,创始团队在营销科技场景已经积累了丰富的经验和广大的客户群体。Jasper的成功很好地验证了创业是认知、客户、团队积累的一次爆发:Proof的2.5万家客户,帮助Jasper快速完成PMF并且在一周内完成数百万美金ARR。
在产品与技术上,Jasper更擅长营销长文的协作,相比竞争对手能够提供更多元化的价值,例如对SEO的优化,规避Google等搜索引擎在AI生成内容上降低搜索权重的影响,帮助客户捕获有机流量,同时可以对是否抄袭进行自动检查,避免知识产权问题。
团队对AI技术与营销场景结合极具洞察与执行力,最早的PMF就是基于GPT3 API,针对长文本营销写作进行调优,后又推出Jasper Art的营销图像生成以及Jasper Chat的对话式写作工具,给用户提供更完整产品矩阵。
在增长中以产品为引擎,提供免费版本的5天试用权限,在产品上引入Chrome插件,让用户可以更低门槛地尝试产品,缩短Time to Value。用G2上平均分高达4.9/5的产品评分来为产品的进行背书,并且对于转推荐的客户给予30%收入的返利从而激励社群的裂变传播。产品可以直接开通试用,近乎0交付成本,为了帮助用户更好地使用产品,提供了丰富的Q&A以及Blog和文档,在Facebook有一个7万多人的社群可以讨论各种基于Jasper的最佳实践。
推荐关注3:Runway AI驱动的视频编辑器
推荐理由
Runway是一家由AI驱动视频编辑的SaaS企业,最初因为2022年爆火的Stable Diffusion以及围绕这个开源模型的版权纠纷而被大家所熟知,三位来自智利、希腊的移民,在纽约大学求学的过程中,共同完成毕业论文结下不解之缘而决定一起创业,经历4年低调的探索在生成式AI元年迎来广泛认可。
成功要素
Runway的团队能够很好地在创作者和AI之间找到一个平衡,CEO是设计师背景,与2位联合创始人在纽约大学ITP(Interactive Telecommunication Program)相识,共同完成的毕业论文成为了Runway的产品原型。首席科学家则是Stable Diffusion的合作者之一,也建立了和慕尼黑大学、纽约大学的学术合作。
在生成式AI成为最炙手可热的技术概念之前,Runway就坚持在探索AI和创作结合了,视频对于制作水准的要求提高了视频后期处理的挑战,Runway在前生成式AI时代为创作者提供了抠像,稳定追踪,删除杂物等能力;当Dall-E-2横空出世,Runway的团队也捕捉到了大模型给图像视频创作带来的新机会,对创作者需求的把握,对AI技术的理解与将两者结合的坚定探索,让Runway成为了功能最完备的AI视频编辑工具。
Runway采用了按照席位数付费的商业模式,对于个人用户提供永久免费的基础版本不过只能使用部分AI的工具,对于可用资产和导出的视频精度也有限制,而15美金每月的Pro版本以及35美金每月的Team版本,则有更大的资产存储空间,同时可以使用更为完备的AI能力。而Enterprise企业用户则可以享受定制化的专属模型,同时提供安全合规的企业级功能。
尽管当前Runway的营业收入还不到500万美金,但是在抓人眼球这件事情上,Runway一直做得非常好,自Stable Diffuison受到关注之后,Runway逐步发布了两段视频用于展示其AI的能力,以及通过文本的交互式编辑能力,在创作者用户群中收获了大量的关注度。
推荐关注4:Inflection.ai 通过AI重新定义人机交互
推荐理由
由DeepMind创始成员Mustafa Suleyman和原Linkedin联创Reid Hoffman组成的顶级创始团队,希望通过AI重新定义人机交互。公司成立之初便获得2.25亿美金的融资金额,跻身独角兽之列。该方向已经在Deepmind的研究"通过数据驱动的方法训练AI控制计算机/A data-driven approach for learning to control computers"中初见成效,期待在Inflection.ai团队的探索下有机会诞生全新的人机交互模式。
由于Inflection.ai没有公布任何产品信息,这里我们用了它的竞品Adept.ai的产品页面来给大家一个直观认识新型的人机交互模式产品。用户可以通过chat的模式调用应用程序流程,得到人通过鼠标点击应用程序相同的结果,类似于去掉自动化流程设置的RPA bot。
随着多模型的训练成本不断在降低,AI模型的不断提升使得AI理解不同内容(如图像、文本)之间的关系使得一个可以将请求转为各种计算机指令的系统成为可能。但想要构造一个全新的人机交互模式,数据的瓶颈仍然是现阶段需要解决的第一个问题。大量的在应用程序中完成任务的事例以及对应的文本描述数据的收集与获取并不容易。即使有了数据之后,模型的生成、提升与稳定所需要的成本对初创公司来讲也不是小数目。期待Inflection.ai团队能在有限的资源的情况下尽快将产品demo与我们分享。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢