这期内容来自 Outset Capital的创始合伙人Ali Rohde和Josh Albrecht对Perplexity AI 联合创始人兼CEO Aravind Srinivas 的采访,Srinivas 除了介绍产品之外,还谈到了对现有市场上封装类产品的看法,以及 Perplexity AI 如何构建优势,全文如下:

 

  • 什么是Perplexity AI?

  • Aravind的创业历程

  • Perplexity AI的工作原理

  • 封装的产品,壁垒在哪里?

  • 建立Perplexity自己的模型

  • Perplexity,Bard 以及 ChatGPT

  • 创业者如何防止 AI 幻觉

  • Perplexity的竞争优势是什么?

  • Q&A

 

 

什么是Perplexity AI?

 

Ali Rohde 

Aravind Srinivas 是Perplexity AI的联合创始人兼CEO。Perplexity AI最近通过NEA领投进行了A轮融资。他还得到了Nat Friedman、Elad Gill以及Jeff Dean、Ian Lakun和Andre Carpethy等人工智能专家的支持。

 

Perplexity AI是世界上第一个普遍可用的对话式答案引擎,可以直接回答关于任何话题的问题,我们将在这次对话中深入探讨这是什么意思。Aravind曾在加州大学伯克利分校获得计算机科学博士学位,并在OpenAI、谷歌和Deep Mind等公司从事人工智能研究。

让我们从基本问题开始,Perplexity AI是什么,与现有的解决方案相比有什么不同?

Aravind Srinivas 

Perplexity AI实际上是一个对话式答案引擎,而不是一个搜索引擎。这意味着什么呢?从人类出现的开始,好奇心、获取信息的需要一直是我们最基本的需求。

在人类出现的早期,我们依靠向他人询问,然后人们把知识以书本的形式保存下来。然后有了印刷术,有了图书馆,然后是互联网,然后有了像雅虎这样的组织化信息来源,再后来是Google这样的算法搜索引擎,但最终我们真正需要的是答案和实现目标的能力。所以我们真正需要的是答案机器人和执行机器人,让它们按照我们的愿望行动,回答我们最深层次的问题。

人们一直希望实现这一点,但过去一直没有实现这一点的原因在于,我们没有这种强大的大型语言模型技术。但世界已经改变了。去年12月,Chat GPT发布了,而在它之前一周,GP 3.5的更新版本发布了。我们发现将这些大型语言模型的能力与工具使用(即搜索索引或包含所有事实的数据库)相结合,就可以构建一个可以回答你所有问题并与你对话的答案引擎,让你能够继续深挖,提出追问,并轻松地与其他人分享所有这些知识,这样他们就不必再问这些问题了。这就是我们正在构建的东西。

我们从去年12月开始做这个工作,上线一周后就推出了产品。很多人都认为我们不可能成功,但我们已经坚持了八个月了,进展还不错。访问量在增长,所以你们应该去看看。

现在,对于大多数搜索,它的功能基本上和Google一样完善。即使你对由LM生成的答案不感兴趣,只想快速获取链接,从LM排名的相关性方面来看,它要比充斥着SEO和广告的Google好得多。

因此,有很多人只是将其当作传统搜索引擎使用,而还有很多人用它来获取答案。这就是我们目前的情况。我们希望继续努力,让我们所有人都使用答案引擎,不再使用搜索引擎。

 

Aravind的创业历程

 

Ali Rohde 

我们将更深入地讨论这个答案引擎。我喜欢这个概念。但是,让我们先回顾一下你的背景。正如我所提到的,你在伯克利分校攻读博士学位,然后在谷歌、Deepmind和OpenAI等公司从事人工智能工作,然后决定创办Perplexity。或许可以说是你在人工智能领域最疯狂的时刻之一,不过也许以后的每个时刻都会更疯狂。你是怎么做出这个决定的?这个过程是怎样的?

Aravind Srinivas 

六年前,我从印度来到这里。刚开始我对创业没有兴趣。我只是为了攻读伯克利分校的博士学位和人工智能而来。那时候,深度强化学习是我感兴趣的课题。当时,全世界的人都对它着迷,但它在产品上并没有真正的影响。然后有一部电视剧《硅谷》。

我相信你们都看过。里面也提到了压缩算法,如何改进压缩。于是我就开始研究生成模型。那是最终的目标。如果你模拟每次预测的对数概率,然后将其输入到一半的编码中,你就有了损失压缩,比JPAC要好得多。我和伯克利的一个同事一起研究生成模型,他是发明这一方法的人,名叫Jonathan Ho。

我们在伯克利甚至开设了一个课程。虽然我们并没有把它称为生成式人工智能,而是称之为深度无监督生成建模。所以我对此了解很多,并且了解了变压器模型,还在Deep Mind和Brain实习过。但那时候硬件条件不具备,无法将所有这些转化成创业公司,因为压缩所需的硬件还没有出现,你需要让它在设备上运行。于是我放弃了那个想法。

在Deep Mind工作时,我基本上都待在办公室,因为我是实习生,应该这样做。我会去图书馆,他们有很多书。

这些故事让我很有共鸣,因为在硅谷,人们通常把大学辍学的人创办公司,成为下一个扎克伯格、盖茨或乔布斯的故事浪漫化。

对我来说,我想的是:哪些像我这样的博士可以创办公司呢?他们不必辍学,但至少是学者转型创业。拉里和谢尔盖是真正让我非常受启发的人。在Deep Mind的时候,我去问我的经理的经理Oriel,他现在是他们的Gemini团队的负责人,2019年的PageRank是多少?相当于那个的东西是什么?他只是说,我不知道,但很可能是T。这种回答基本上是正确的,变压器现在是AI领域的终极试金石。

于是我在谷歌Brain部门开始了变压器的研究,与发明它的那个人一起工作,他叫Ashish。写了很多论文,对它的真正工作有了了解,然后去OpenAI做更多的研究。但很明显,时代已经改变了。我总是听到一些关于“有一个叫Jasper或者Copy的公司,它们赚了大量的收入”的消息。然后真正改变我的时刻是Github启动了付费功能。成千上万的人在第一天就付费,ARPU达到了双位数的百万美元,这说明这是一个真正的东西,并且显然给周围的人带来了很多价值。

我和Elad Gill、Nat Friedman等一些人取得了联系,告诉他们我想创办一家公司。我什么都不知道。事实上,我向Elad Gill最初提出的想法是我想创办一个基于像素的Google,因为像素是无法从文本中取代的。所以我想在眼镜上做这个。当时Deep Mind有一个叫Flamingo的模型,可以实现这个目标。所以我们只需要将它推出市场。但是他说,这确实是一个很酷的产品演示,但你不会让它工作的。硬件条件还没有具备,要在设备上运行非常困难。

 他告诉我的那些理性的话,也是投资者对一个充满热情的创始人说的。但搜索的想法一直回荡在脑海里。我们尝试过Texts Equal,尝试过很多其他的数据库搜索,但我们整个核心创始团队都对搜索充满了动力,这个想法不断地从Larry和Sergey那里涌出来,以及我一直想要做搜索的愿望,最终不知怎么地就渗透到了我们的产品中。

我认为很多人都会说这一点,就是要倾听自己内心的声音。无论你最终痴迷于什么,那就是你能够投入所有努力的东西。

其他的事情,比如听客户的要求或者与人交谈,构建客户需要的东西,你首先需要对什么问题产生浓厚的兴趣。你必须要愿意去研究它。所以最终我们对搜索产生了浓厚的兴趣,就这样成为了我们的创业方向。

 

Perplexity AI的工作原理

 

Josh Albrecht 

Perplexity在内部是如何工作的呢?

Aravind Srinivas

Perplexity基本上是将传统搜索索引与大型语言模型的推理能力和文本转换能力结合起来的产物。所以每次你输入一个查询到Perplexity时,我们会理解你的查询,重新构建它,然后将其发送到一个非常传统的搜索引擎和多个搜索索引,这些索引不是我们自己的,而是外部的。

从这些索引中提取出相关的链接,有时甚至有上百个链接。然后我们将简洁回答用户查询的任务交给大型语言模型。我们要求它阅读所有这些链接,并从每个链接中提取出相关段落,用这些段落来以学术或记者的写作风格回答用户的查询。也就是说,确保你的答案每部分都有支持性的引用、支持性的链接。这些都来自于我们的背景。

我们是学者,写论文时,每个句子的末尾都有引用,以确保我们只说真实的事实,就像一个事实GPT或真实GPT的倾向。这样最终形成了答案。

大型语言模型完成了魔术般的工作,让答案变得对话式。它记住了之前的问题上下文,这样你就可以提出更多的问题,并进一步提问,而且我们通过生成这些问题的方式使提问过程更加容易。所以发现更多信息的过程变得有趣和吸引人,你会不断通过点击更多的链接来询问更多的事情,这也是我们从维基百科得到的启示。

Josh Albrecht

这一开始是直接调用OpenAI的API吗?现在还是这样吗?还是有很多专门的模型?它是如何随着时间的推移发生变化的?

Aravind Srinivas

最初我们使用的是GPT-3.5。我想现在它还叫DaVinci 3。当ChatGPT发布之前,我们已经准备就绪。所以我们从那时候开始质量就有了巨大的提升。我们还使用了Bing API。

所以第一次推出时,只是进行了一些状态API调用,但现在它变得更加复杂。这就像在演奏交响乐一样,有很多工具、很多部分,你的任务是在上面演奏,可靠地提供大量的价值,保持规模化,每秒处理大量的查询,并确保延迟非常好。

封装的产品,壁垒在哪里?

 

Josh Albrecht 

你如何看待在其他API之上构建产品,不管是OpenAI还是谷歌(我确信谷歌也会推出自己的商业API等)?你如何考虑在这些API之上建立你自己的业务?这样的模式是否具有防御性?对于那些对你的产品持贬义看法的人,你有何回应?他们说这只是一个OpenAI的封装或其他什么的。

Aravind Srinivas

我认为,如果只是一个简单的封装,很多人将能够快速构建类似的产品。而且,如果产品只是个封装,要将其扩展到这样的流量、使用量和可靠性水平将很困难,需要后端进行深度工程处理。

长期的可持续性只有在你拥有大量用户时才有可能。也就是说,如果产品非常好,用户喜欢它,并不关心你在内部使用了什么技术,那么你就拥有了用户基础,产生了网络效应和用户留存。一旦你拥有了这些用户,你的地位就很难被撼动。

无论你是否拥有自己的模型,从那个阶段起,要想输掉竞争将变得非常困难。但是,从公司资产角度考虑,明显投资于自己的模型和自己的搜索索引是有意义的。

说实话,最近人们嘲笑封装公司,特指那些不用开放API而是开发自己的封装产品的公司。可惜,我们并不是一个封装公司,因为当我们刚刚起步的时候,封装是不存在的。所以,我们自己构建了一个类似的封装。所以,我认为,随着时间推移,建立自己的模型和索引是有意义的。

有两种建立公司的方式。一种是先推出产品,获得大量用户,确定产品市场适应阶段,达到足够的用户规模,然后开始投资基础设施。因此,你需要筹集所需资金,构建公司。

另一种方式是先构建基础设施,然后再开发产品。只有两家公司是这样做的,我认为只有一家公司成功了,那就是OpenAI。Anthropic构建了模型,但没有推出产品。没有人把cloud当作产品使用,而只是将其作为API使用。这种方式更适合有兴趣建立基础设施业务,然后再以后可能开发产品的公司。

但更多地集中在基础设施上。这需要你以非常高的估值筹集大量资金,这对大多数人来说几乎是不可能的。即使可能,也非常冒险。所以我们决定采用传统方式,筹集少量资金,在没有任何自己基础设施的情况下推出产品,然后再逐步开始建设。

建立Perplexity自己的模型

 

Ali Rohde 

请明确一下,你是说计划最终迁出OpenAI,还是计划同时开发自己的模型与OpenAI合作?

Aravind Srinivas

目前的计划是开发我们自己的模型,与OpenAI合作。我预计OpenAI在未来的2到3年内将拥有最好的模型。之后的未来没人知道,可能是其他公司,可能是另一个AI模型。

没人知道。所以,我选择采取务实的态度。当然,如果你问这个房间里的任何人,他们是否想拥有GPT,他们肯定会说是。所以,我也会说是,我希望我们拥有自己的模型,它与OpenAI建立的下一个语言模型一样强大。

在现实中,今天实际可行的是,我们可能可以达到3.5,但我们可能永远无法获得4的资金支持。甚至没有达到3.5.所以,我们很乐意与OpenAI的API合作。

Ali Rohde 

非常务实。有时候,相比那些筹集了1亿美元甚至10亿美元用于构建模型的公司,你的方式可能不那么令人兴奋,但从头到尾都很务实。

Aravind Srinivas

我不是在嘲笑那种做法。实际上,我直言不讳地说,我没有那么大胆。因为如果你想筹集1亿美元,你的估值至少应该是500亿或600亿,甚至可能更高。如果你从未构建出比OpenAI更强大的模型,又或者如果第二天他们宣布API降价10倍,那又会怎样?事实上,他们确实做到了。

那么你将怎么办?如果几个月后Nvidia推出了全新的GPU,而你把所有的现金投入到了旧一代的硬件集群,会面临很多问题。在处理那么大规模的资金时,有很多问题需要考虑。作为第一次创业者,我没有这样的胆量。

 

Perplexity,Bard 以及 ChatGPT

Ali Rohde 

最近你在LinkedIn上发布了一些有趣的数据,比较了Perplexity、Bard和ChatGPT的数据,引用的数据是Perplexity有700,000访问次数,Bard有4.6百万次,ChatGPT有5400万次。

目前ChatGPT明显是占主导地位的产品,但您提到ChatGPT可能是主导产品,但Perplexity才是最好的产品。从访问持续时间、每次访问的页面数和跳出率来看,Perplexity明显胜过ChatGPT和Bard。这些数据令人印象深刻。我想知道,是什么让您的产品获得这些令人满意的用户喜爱度?

Aravind Srinivas

这其中有很大一部分功劳要归功于我们的团队。我们拥有非常优秀的工程师和优秀的产品设计师。同时,产品最受欢迎的一个方面是它非常简洁和简单。

那么为什么我们能获得这些统计数据呢?我认为第一原因是我们只专注于我们正在做的这一件事情,即支持引用的答案引擎,而不做其他事情。

我们做了很多决策,比如,如果我们支持自由交谈而不是只是一个生产力助手或研究助手,我们可能会得到更多的流量。但我们没有这样做,因为那样会导致产品分叉,让用户感到困惑,对于某种功能,他们可能会有很多用户,而对于另一种功能,他们可能会因为缺乏可靠性而感到沮丧。

所以这对我们有很大帮助,让我们保持清晰、简单,一次只做一件事情。ChatGPT有太多其他的功能,可能会导致他们在一个插件或一个特定功能上输给了专注于完美实现那个功能的公司。而这正是发生在他们的浏览器插件或Bing插件上的问题。

至于Bard,我认为他们推出之后还在改进。我认为他们试图与ChatGPT竞争,努力在那里创建新的搜索体验。所以他们产生了很多幻觉,他们不说对的事情,一些链接是不存在的。这些问题在ChatGPT上也存在。

如果你去攻击ChatGPT,你最终会遇到它的一些问题。另一个劣势是,如果Bard基本上替代了谷歌,对谷歌来说并不好。所以他们可能不会像对普通谷歌一样投入那么多资源来开发Bard。

 

创业者如何防止 AI 幻觉

 

Ali Rohde 

我想问一下,这是每位创始人、每位创造者都面临的问题。你如何防止或减少幻觉?你是如何应对这个问题的?

Aravind Srinivas

正如我所说的,产品的核心原则是只说你能够引用的内容。这也是学术界或新闻界的原则。你需要有来源。因此,如果你只是从链接或网页上获取内容,并且只使用该内容来生成答案,你就可以大大减少幻觉。

尽管如此,仍然有一些误解会出现在LLM上,比如,如果我搜索“Ali Rohde”,这是个人名,它可能会将两个名字合并为一个人。有些人会因此感到生气,有些人会觉得很有趣。所以我们在消除幻觉方面付出了很多努力。

在一些特殊情况下,可能会出现错误,这些错误可以通过更好的LLM来解决。例如,我们注意到GPT-4几乎没有犯错。只要你能够将事实与推理从检索增强生成的范式(有些人称之为RAG)中解耦出来,你就有可能逐步解决这些问题。

只要你能够更好地解析网页,对网页进行更好的摘要处理,嵌入更好的内容,所有这些问题在时间的推移下就会逐渐减少,最终减少到几乎为零。如果1000次查询中有1次事实上存在一些问题,没有人会对此感到生气。我们一直在跟踪指标,并意识到我们的改进一直在持续。

 

Perplexity的竞争优势是什么?

Ali Rohde 

凡是创始人都知道,创业始终非常困难。现在,OpenAI在迅速发展,谷歌在迅速发展,其他公司也在迅速发展。然后每隔一天就会有一项亿万资金的融资公告,新的公司露面,拿到大笔资金。

我很好奇,你是如何应对这一切的?一方面要应对建设新事物的各种挑战,另一方面还要处于这样一个世界,在这个世界中,您必须在Twitter上亮相,监控发生的一切,因为事情变化得如此之快。

Aravind Srinivas

我认为,证明世界是错误的,这总是一件有趣的事情,没有什么比这更好了。当皮特·蒂尔写的《从0到1》之类的书籍中提到的,全世界的看法是什么?你自己又怎么看?是否在正确的交集上?如果是这样,你就有可能非常成功。

至于融资轮次,如果拥有更多的资金可以让他们更快地构建你正在努力构建的东西,那么你显然处于不利地位。例如,如果你的公司的目标是构建GPT-4,并且你获得了1000万美元的资金,而另一家公司获得了5亿美元的资金,他们可能会胜出,但如果公司的目标是以LAMA为基础,为医疗保健领域打造一个真正优秀的助手,并不是因为获得5亿美元的资金就会变优秀。

事实上,这可能导致他们失败,因为他们拥有太多的资本,会分散注意力,雇佣很多人,并把大量资金投入到不必要的事情上。而你的优势就是简洁、精干,你是饥饿的,你需要赢得比赛。稀缺性是不能假的。拥有更多风险和潜在收益的一方最终会赢。所以我不会被融资轮次分散注意力,例如OpenAI更多地需要担心这个问题。对于与你在同一领域竞争的公司,你显然需要有竞争力。

对于融资轮次,没有疑问,最好专注于你自己的发展。Nat Friedman在他的网站上有一些很棒的标语,我很喜欢其中的一些,我记得有一些可以现在分享。他写道,从让事情发生中得到多巴胺。我非常认同这一点。其中一些观点与马克·扎克伯格的观点相吻合,比如比完美更好。始终迭代,不要等待完美。每周获取用户反馈。

实际上,当开始公司时,Nat曾告诉我们,每个星期五,你应该讨论用户对你的产品的反馈。如果没有新的反馈意见,那意味着那周是失败的。所以我们非常认真地采纳了他的建议,我们仍然在坚持这一点。实际上,进展稍微放慢了一些,因为我们已经有了产品,我们不能不断地推出更多功能,因为这会让用户感到困惑。但我们仍然尽力每个星期五讨论用户对产品的反馈和改进意见。

Q&A

观众 

你之前说你正在构建一个搜索索引。你使用了检索增强生成方法吗?如果是的话,你的索引更新频率是多少?你如何扩展它,以确保你的数据始终保持最新?

Aravind Srinivas 

我不记得具体的周期性是多少,但更新频率相当频繁,至少每隔几个小时就会进行一次。我们使用了检索增强生成方法。因此,这其中必要的要素包括良好的嵌入以及合理的逻辑,比如重新抓取等等。这与实际的LLM(Language Model)是分开的。

观众 

对于LLM和检索增强生成方法,你们还在使用OpenAI的API吗?

Aravind Srinivas 

我们使用OpenAI的API,并且也使用了我们自己的一些模型。随着时间的推移,我们预计会在我们的模型和OpenAI模型之间设置一个滑动条,并在两者之间形成一个凸组合。我们预计这个滑动条会越来越倾向于我们的模型,但仍然会持续有非零的OpenAI模型的使用。

观众 

那你们用什么指标来衡量相对性能,以比较检索器的性能?

Aravind Srinivas 

在这方面,我们正在设置所有这些东西。我们有单一的AI质量仪表板,我们正在与承包商一起开发它。对于这个端到端的系统,最重要的是要追踪答案是否正确。对于仅仅嵌入本身很难找到一个度量标准。

我的团队中的一部分人也在进行LLM研究。每当我们开发一个产品,进行迭代时,我们都会开个会。最后总是觉得,哦,我们需要构建一个测试集来测试我们的检索器的性能。到目前为止,我们从来没有真正做过这样的测试,我们总是凭直觉地进行一些尝试。我们在改变一些流程,看看是否能有更好的效果。

观众 

你们对此进行了多少具体的测试或者类似基准测试的工作?

Aravind Srinivas 

我们应该构建一个基准测试。这是我在OpenAI学到的一点经验,基准测试真的被高估了。我们都被机器学习研究洗脑,以为基准测试很重要。但一旦你无法训练你的思维只是测试真实用户对产品的使用,你才能得到可靠和稳健的结果。否则,你只会为了这个基准测试而进行调整。

Ali Rohde 

Josh,你对基准测试有何看法?

Josh Albrecht 

这方面肯定有一些道理。我不确定只依赖实际产品测试是否总是正确的答案。如果你有用户,并且可以在真实世界中尝试一些东西,这当然是一个不错的方法,尽管在有限的范围内尝试。显然,你不会把整个产品都推广给所有用户。

获得真实反馈是最重要的,我认为你仍然可以使用基准测试。有些情况下可能是有意义的。可能你会开发一些关于搜索质量的内部基准测试。但你需要非常小心,不要过度优化,这是一个真正的危险。

观众  

我想问一个关于单位经济的问题。作为一名建筑师,我经常需要与客户谈论使用LLM搜索与传统搜索基础设施相比可能带来的成本影响。所以在展望未来时,你认为降低成本并使其更具盈利性和竞争力,使得与像谷歌这样的公司相比如何实现?

Aravind Srinivas 

作为一家初创公司,我们有一个优势,那就是我们没有像谷歌那样的大量用户,每天使用的人数高达21或20亿。我们没有那么多用户,我们的规模比谷歌低很多。所以成本不是一个大问题。

在成本降低方面,使用小模型,并且专门为检索进行训练,这将是有帮助的。我预计随着时间的推移,硬件成本也会降低。会有更多技巧使推理更加高效,比如使用闪存技术和其他技术。

因此,考虑到这些因素,以及我们在相当长的一段时间内不需要担心与谷歌的用户量相匹配,如果今天是这种情况,我们将会是一个更大的公司,所有这些都会使我们更容易实现这一切。当然,构建我们自己的索引也将大大降低成本,因为一旦索引建好了,检索的成本并不高。

观众 

你是否对使用情况组或用户角色进行过研究,并且如何将它们与更传统的谷歌搜索进行比较?

Aravind Srinivas 

我们发现很多用户使用LLM进行研究。通常你会说,你Google了一下这个问题吗?有一些问题你只需要迅速获得答案,比如现在是伦敦的时间是多少?这些是谷歌的领域。

但对于那些需要你实际进行一些研究的问题,比如“如果创始人在他们目前的公司仍然有工作,YC会支持他们吗?或者在他们获得资金之前,他们可以继续投资他们的公司吗?”这些问题,LLM能够轻松回答。

因此,我们在日常生活中遇到的很多需要进行一定程度研究的问题,不管是几分钟还是几个小时,我们的产品都能轻松应对。这也是为什么我认为我们与谷歌并非直接竞争的原因,尽管市场上的说法是这样。很容易说得出这样的话,但实际上我们是为这些回答机器提供了一个新的领域,让支持人员可以直接进行研究。

观众 

我想问一下你们的10年计划,以及你们在技术和业务方面看到的趋势。一个例子可能是代理人,我们知道目前它们并不工作得很好,正如Josh之前提到的,你认为用户是否会希望搜索工具能够自己进行更多的研究和提出跟进问题。在这方面,你认为像LLM这样的工具在领域知识和一般工具(如perplexity)之间有多大的专业化差异?

Aravind Srinivas 

对于18年(特指OpenAI的语言模型GPT-3推出的年份)的东西,我们已经在进行一些原型制作。因此,如果你在 perplexity中启用合作模式( Copilot),它更像是一个交互式的搜索伴侣,而不仅仅是一个回答引擎。

我的意思是,它会回过来问你澄清问题,并且这些澄清问题与你最初提出的问题非常相关。它会生成澄清问题的用户界面。这个想法是受到了AutoGPT的启发,但它并不完全是自主的,更像是一个共同的 Copilot

你可以想象这将逐渐发展为帮助你在购物方面做出决策。所以我当然看到在未来,它有可能成为一个可靠的助手,而不仅仅是一个回答引擎。

但我们必须确保它真的有效,否则我们就不会发布这个功能。如果它对大多数人来说效果不好,那将是一个糟糕的体验。至于10年计划,我认为这在未来的3到4年内是可行的。超过5年,很难预测。

GPT-1是在2018年推出的。现在距离那时已经过去了五年。你能预测到现在吗?这非常困难。所以即使是5年,也是很难的。10年更加困难。

观众 

我有一个关于训练的问题。你说你正在建立自己的模型。现在听起来,你的模型是由多个不同的搜索来源组合而成的。你们的模型如何能比最好的那些搜索组合更好呢?

Aravind Srinivas 

你不应该为这个目的训练你的模型。这就是我对通常的特定领域LLM非常怀疑的原因。因为一旦你这样做,这些模型就会失去通用的GPT的神奇之处。它们将很难保持对话性,并且很难进行推理,这些都是建立在OpenAI模型基础上的产品所具有的魔力。

一旦你开始对你的特定用例进行微调,这些特点都会消失。所以如何在保持通用性的同时,优化你的用例,这是一个开放的问题。我认为答案是授权。谷歌发表了一些论文,其中有一篇论文是关于Minerva的,这是一个模型,专门用于回答数学问题、解决微积分问题等等。

他们不仅仅在数学方面进行了训练,他们还使用了预训练的模型。但在进行微调时,他们不仅仅在数学上进行了训练,而且还在普通英语上进行了训练。事实上,95%的训练是关于英语的,可能只有5%到10%是关于数学的。这确保了他们在微调时保持了预训练数据分布。这是非常重要的。很多人不知道这一点。

因此,当大家抱怨说他们拿了Lama进行微调,然后它过拟合了,在之前能做到的大多数一般性任务上不再表现好,这其中就有原因,你的模型从初始参数空间中偏离太多。

Reference:

https://www.youtube.com/watch?v=jksGQhMtXjo