万变不离其宗：用统一框架理解向量化召回

之前，作者在之前的文章中梳理了主流排序算法常见套路：

特征都ID化。类别特征天然是ID型，而实数特征需要经过分桶转化。
每个ID特征经过Embedding变成一个向量，以扩展其内涵。
属于一个Field的各Feature Embedding通过Pooling压缩成一个向量，以减少DNN的规模
多个Field Embedding拼接在一起，喂入DNN
DNN通过多层Fully Connection Layer (FC)完成特征之间的高阶交叉，增强模型的扩展能力。
最后一层FC的输出，就是最终的logit，与label（e.g., 是否点击？是否转化）计算binary cross-entropy loss。

相比于排序那直白的套路，召回算法，品类众多而形态迥异，看似很难找出共通点。如今比较流行的召回算法，比如：item2vec、DeepWalk、Youtube的召回算法、Airbnb的召回算法、FM召回、DSSM、双塔模型、百度的孪生网络、阿里的EGES、Pinterest的PinSAGE、腾讯的RALM和GraphTR、......

从召回方式上分，有的直接给user找他可能喜欢的item（user-to-item，简称u2i）；有的是拿用户喜欢的item找相似item（item-to-item，简称i2i）；有的是给user查找相似user，再把相似user喜欢的item推出去（user-to-user-to-item，简称u2u2i）
从算法实现上分，有的来自“前深度学习”时代，老当益壮；有的基于深度学习，正当红；有的基于图算法，未来可期（其实基于图的，又可细分为游走类和卷积类）。
从优化目标上分，有的属于一个越大规模的多分类问题，优化softmax loss；有的基于Learning-To-Rank(LTR)，优化的是hinge loss或BPR loss

但是，以上这些召回算法，其实都可以被一个统一的算法框架所囊括。本文就将介绍作者归纳总结的NFEP（Near, Far, Embedding, Pairwie-loss）框架，系统化地理解向量化召回算法。在详细介绍之前，首先需要强调，这么做的目的，并非要将本来不相干的算法“削足适履”硬塞进一个框架里，哗众取宠，而是有着两方面的重要意义：

一是为了开篇所说的“融会贯通”。借助NFEP，你学习的不再是若干孤立的算法，而是一个算法体系，不仅能加深对现有算法的理解，还能轻松应对未来出现的新算法；
二是为了“取长补短”。大多数召回算法，只是在NFEP的某个维度上进行了创新，而在其他维度上的做法未必是最优的。我们在技术选型时，没必要照搬某个算法的全部，而是借助NFEP梳理的脉络，博采多家算法之所长，取长补短，组成最适合你的业务场景、数据环境的算法。

接下来，本文首先介绍NFEP框架，然后逐一介绍如何从NFEP的框架视角来理解Airbnb召回、Youtube召回、Facebook EBR、Pinterest的PinSAGE、微信GraphTR、FM召回这几种典型的召回算法。感兴趣的可以继续戳原文。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

万变不离其宗：用统一框架理解向量化召回

评论