Wired上的文章围绕Google工程师Donald Metzler等的新论文讨论了GPT-3等大规模语言模型可能对搜索引擎的影响。

简介:

1998年,一些斯坦福大学的研究生发表了一篇论文,描述了一种新型的搜索引擎:“在本文中,我们介绍了Google,这是大规模使用超文本格式的大型搜索引擎的原型。 Google旨在有效地对Web进行爬网和编制索引,并产生比现有系统更令人满意的搜索结果。”
关键的创新是一种称为PageRank的算法,该算法通过根据搜索结果与用户在网络上其他页面的链接来计算搜索结果与用户查询的相关程度,从而对搜索结果进行排名。在PageRank的支持下,Google成为了通往互联网的门户,而Sergey Brin和Larry Page建立了世界上最大的公司之一。

现在,一组Google研究人员发布了一项彻底重新设计的提案(论文Rethinking Search: Making Experts out of Dilettantes),该提案不使用搜索中传统的排序方法,而是用大型AI语言模型(BERT或GPT-3的未来版本)代替。这样做的想法是,用户会问一些问题,而在这些页面上训练过的语言模型可以直接回答这些问题,而不是在庞大的网页列表中搜索信息。这种方法不仅可以改变搜索引擎的工作方式,而且可以改变我们与之互动的方式。

现有语言模型的许多问题将需要首先解决。首先,这些AI有时会对查询产生偏见和有害的响应,这是Google和其他研究人员指出的问题。

重新思考PageRank

即使网络规模激增,搜索引擎也变得越来越快,越来越准确。现在使用AI对结果进行排名,而Google使用BERT可以更好地理解搜索查询。然而,在这些调整之下,所有主流搜索引擎的工作方式仍与20年前相同:爬虫将网页编入索引(可不间断地读取网络并维护找到的所有内容的列表的软件),与用户查询相匹配的结果是从该索引中收集数据,然后对结果进行排名。

论文作者唐纳德·梅茨勒(Donald Metzler,曾是南加州大学的助理教授,与Bruce Croft合著《Search Engines: Information Retrieval in Practice》一书)和他在Google Research的同事写道:“这种先索引后排名的蓝图经受了时间的考验,很少受到挑战或认真考虑。” (Metzler拒绝发表评论。)

问题在于,即使是当今最好的搜索引擎,仍然会以包含所需信息的文档列表来响应,而不是包含信息本身。搜索引擎也不擅长回答需要从多个来源获得答案的查询。就像您向医生寻求建议并收到了要阅读的文章列表,而不是直接的答案一样。

Metzler和他的同事对行为像人类专家的搜索引擎感兴趣。它应产生自然语言的答案,并由多个文档合成,并像维基百科的文章一样,以支持证据的形式备份其答案。

大型语言模型使我们成为其中的一部分。 GPT-3在大多数网络和数百本书上接受了培训,可以从多种来源中获取信息,以自然语言回答问题。问题在于它无法跟踪这些来源,也无法提供答案的证据。无法判断GPT-3是在骗取可信赖的信息还是虚假信息,或者只是散布自己的废话。

梅茨勒(Metzler)和他的同事们称语言模型为Dilettantes(半吊子)—“他们被认为知道很多,但是他们的知识很肤浅。”他们声称,解决方案是构建和培训未来的BERT和GPT-3,以保留其单词来源的记录。尚无此类模型能够做到这一点,但原则上是可行的,并且朝着这个方向开展了早期工作。

在英国谢菲尔德大学研究Web信息检索的Ziqi Zhang说,在不同的搜索领域,从回答查询到总结文档再到结构化信息,已经取得了数十年的进展。但是,这些技术都没有彻底改革搜索,因为它们每个都解决特定的问题并且无法推广。他说,本文令人兴奋的前提是大型语言模型能够同时完成所有这些操作。

然而,Zhang指出,语言模型在技术或专业学科上表现不佳,因为受其训练的文本中的示例较少。他说:“网络上的电子商务数据可能比有关量子力学的数据多数百倍。”当今的语言模型也偏向英语,这会使网络的非英语部分无法得到充分服务。

华盛顿大学(University of Washington)研究自然语言处理的汉娜·哈吉希尔(Hanna Hajishirzi)对此想法表示欢迎,但警告说,这在实践中将是一个问题。她说:“我相信大型语言模型非常重要,并且可能对搜索引擎的未来非常重要,但是它们需要大量的内存和计算资源。” “我认为它们不会取代索引。”

尽管如此,张还是对这种可能性感到兴奋。他说:“过去这是不可能的,因为大型语言模型只是最近才兴起的。” “如果可行,它将改变我们的搜索体验。”

原文:https://www.technologyreview.com/2021/05/14/1024918/language-models-gpt3-search-engine-google/

内容中包含的图片若涉及版权问题,请及时与我们联系删除