影响搜索结果的因素有很多,包括对短文本的正确理解(实体词识别、纠错、意图分析等)、长文本良好结构化(关键词抽取、主题词抽取、文本分类等)以及排序模型(召回策略、LTR、语义匹配等)。各种优化算法落在以上三个步骤中,对不同指标产生影响。
对于搜索优化,我们的建议是从召回策略开始着手。理由是这个步骤与实际业务方最近,当理清业务逻辑后,可以快速实施,看见变化。另外,召回阶段是整个搜索流程中的基石,所有后续的排序都基于召回的候选列表,先规划好召回策略,才可能尽量避免后续调整基石,导致与后续“精排”相互影响的境地。
那么改进召回我们一般会做些什么呢?首先一定是通过产品分析、用户调研来了解什么内容适合在这个搜索场景里展示,随后抡起大刀修改检索的字段或公式。有了baseline之后,我们在观察检索回的内容有什么问题。可能是没有匹配内容,可能是最匹配的内容排序靠后,或者可能是除了字面匹配,其他内容相关性差等等。此时,就可以上一些影响召回的模块,比如Query词权重分配、动态时效性判定、Query扩展等。后面会陆续有文章分享其他技术,本文我们先关注如何做Query扩展。
总的来说,召回于搜索是满足检索内容的大概范围,排序是次要的,需要关注的是Query与召回列表的相关度(字词层面和主题层面)。我们需要Query扩展技术的原因这里大致将它们归纳为三个方面。首先,用户输入的Query普遍较短,平均2-3个词,可能无法很好命中需要找的内容;其次,Query中的词通常会与多个主题关联,搜索引擎根据简短的几个词检索返回的内容可能不是用户所关心的那个主题;另外,用户可能对自己找的东西只有一个大致的概念(举个栗子,假设用户想要找“黑人抬棺”的视频,但是并不知道这个词的准确表述,转而使用“棺材”、“黑人” 这些词来搜索),Query扩展此时可理解为类似联想的功能,或者可以理解为将某个“罕见”搜索词改写成“常见”搜索词。
完整的Query扩展技术路线可见下图
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢