2020年精排模型调研

首发于知乎专栏：广告推荐排序作者：Ruhjkg 广告算法工程师

最近由于工作需要调研了一下2020年关于精排模型的进展。在广告推荐领域的CTR预估问题上，早期以LR+人工特征工程为主的机器学习方法，但由于人工组合特征工程成本较高，不同任务难以复用。后面FM因子分解机提出了二阶特征自动交叉解决了人工组合特征的难题。之后2014年Facebook 提出GBDT+LR 方案使用树模型构建组合特征的思路。2015年后由于深度学习的流行，业界CTR模型的主流从采用经典DNN模型演变到结合浅层的Wide&deep模型再到结合二阶特征交叉的DeepFM模型，深度学习开始全面应用在CTR预估问题上。时间进入2020年，CTR预估模型又有了新的发展，比如使用新的特征交互方式，CTR模型统一的benchmark，用户行为序列建模和用户的多兴趣建模，多任务学习，CTR模型知识蒸馏，CTR模型的增量训练，CTR模型debias，多模态学习与对抗，跨域迁移CTR建模，隐式反馈数据建模，NAS在CTR上应用。本文接下来对这些新的主题逐一介绍。

一、高阶特征交 自从Transformer 提出以来，Attention逐渐成为CTR模型里高阶特征交互的重要方式。18年AutoInt提出将Multi-head self-attention 应用在CTR模型里，它在增强模型的可解释性的同时并且具备高阶特征交叉的能力，19年微博团队提出的FiBiNet，这篇文章使用Squeeze-Excitation network (Senet) 结构学习动态特征的重要性以及使用用双线性函数来更好的建模交叉特征。以及阿里的BST直接使用transformer对用户行为序列建模。

AFN Adaptive Factorization Networks是AAAI20的工作，由于之前的CTR模型为了增强模型的预测效果利用了二阶特征交互，甚至高阶特征交互。然而这些高阶特征交互往往带来昂贵的计算量导致模型陷入局部最优解，同时构造出来交叉特征有些相关性比较小对于模型来说相当于引进噪声影响模型性能。因此本文提出了AFN(自适应因子网络)学习特征组合的阶数，可以自适应调整不同阶的特征组合。 Adaptive Factorization Network: Learning Adaptive-Order Feature Interactions

InterHAt InterHAt是在WSDM20上发表的工作，文中指出现存的CTR模型有三个主要缺点，第一缺乏可解释性，第二高阶特征交叉效率比较低，第三不同的语义子空间特征交互的多义性容易被忽视。因此本文提出使用带有多头注意力机制的transformer用于特征表示学习，再利用分层注意力策略来预测CTR并且同时提供结果的可解释性。InterHAt通过高效的注意力聚集策略捕获高阶特征交互。 Interpretable Click-through Rate Prediction through Hierarchical Attention

LorentzFM LorentzFM是AAAI20的工作。这篇文章提出的动机：由于之前CTR模型为了学习到复杂的特征交互需要大量的训练参数从而导致内存使用过高以及计算效率低下，因此提出了一种名为LorentzFM的新模型交互，它利用了双曲空间中两个特征之间距离是否违背三角不等式来构造特征交互，同时双曲三角形特殊的几何特性使得学习不需要所有的顶层深度学习层，大大减少参数数量（20%~80%）。 Learning Feature Interactions with Lorentzian Factorization Machine

CAN CAN这项工作是阿里定向组今年11月发表在arxivs上的，主要以一种新的方式重新思考高阶特征交互。本文首先提出特征协同的概念，这是指特征对最终预测的集体影响。然后使用二维笛卡尔积的方式来对item ID做特征协同建模会带来参数量的急剧上升，为了解决这个问题，本文提出了Co-Action Net 使用模型化的方案建模Co-action。其具体的建模的方案是：把Co-action 希望建模的两个ID, 一端信息作为输入，另一端信息作为MLP的参数，用MLP输出来表达co-action信息。 CAN: Revisiting Feature Co-Action for Click-Through Rate Prediction

KFAtt-freq 这篇是京东广告搜索组NIPS 20 的工作。在电商场景中，用户经常出现历史行为中没有表现过的新的兴趣，以及对不同品类商品行为频次严重不均衡，针对这两个问题，这篇文章提出一套基于卡尔曼滤波的attention的算法用于对新用户行为建模。主要是为了克服用户行为中频次差异巨大的问题。Kalman Filtering Attention for User Behavior Modeling in CTR PredictionNON这篇论文是第四范式在SIGIR20上发表的文章，文章指出大部分基于神经网络和FM的CTR模型虽然可以融合不同的特征embedding直接并线性组合，但是没有考虑到域内信息，而且不同数据泛化新较差。因此提出network on network(NON)解决这个问题。 Network On Network for Tabular Data Classification in Real-world Applications

NON 这篇论文是第四范式在SIGIR20上发表的文章，文章指出大部分基于神经网络和FM的CTR模型虽然可以融合不同的特征embedding直接并线性组合，但是没有考虑到域内信息，而且不同数据泛化新较差。因此提出network on network(NON)解决这个问题。 Network On Network for Tabular Data Classification in Real-world Applications

二、CTR模型benchmark

一直以来，大多数CTR预测任务缺乏一个标准的benchmark和统一的评价标准，因此在这些研究中，这导致了不可复现甚至不一样的实验结果。而今年9月华为诺亚提出一个可再现的开放benchmark FuxiCTR , 文章实验结果表明许多做高阶特征交叉的CTR模型的差异并没有论文当中提到地那么大。 FuxiCTR: An Open Benchmark for Click-Through Rate Prediction

三、用户行为序列建模用户兴趣

关于用户行为序列建模，最开始是youtube那篇文章直接把用户观看过得视频序列做mean pooling 作为用户历史兴趣的表达，而在DIN中，将attention的思想引入到行为序列建模中，将target item 和行为序列中的item做一个attention，得到一个weight, 然后进行加权求和来表征用户的兴趣。在之后DIEN中使用GRU对用户兴趣进行抽取和使用AUGRU来表示用户兴趣的演化过程。但是RNN方式对用户行为序列进行串行计算，耗时相对还是比较高，后来阿里BST文章使用transformer来建模用户的行为序列。更进一步，通过观察用户行为，发现用户在每个会话中的行为是相近的，而在不同会话中差别是很大的，考虑这种跟Session相结合的用户行为序列，阿里提出一篇DSIN工作。

DHAN 这篇工作是阿里SIGIR20的工作，文章指出用户兴趣往往遵从一种层级的模式，从higher-level的属性（如品类，价格区间，品牌）到具体lower-level属性（如item）,而之前关于用户兴趣抽取的模型如DIN忽视了这种层次结构用户兴趣建模。Deep Interest with Hierarchical Attention Network for Click-Through Rate PredictionSIM这篇是阿里今年6月放出来对于用户行为序列建模的研究。为了解决对长用户行为建模线上耗时大的问题，阿里这篇SIM通过两阶段的方式，来对用户终身行为序列进行建模，第一个阶段，通过GSU模块，从用户行为序列中找到K个与目标物品最为相关的序列集合，第二个阶段对前一个阶段得到的较短行为序列通过exact search unit 模块来进行精准建模用户兴趣。 Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate PredictionUBR4CTR

SIM 这篇是阿里今年6月放出来对于用户行为序列建模的研究。为了解决对长用户行为建模线上耗时大的问题，阿里这篇SIM通过两阶段的方式，来对用户终身行为序列进行建模，第一个阶段，通过GSU模块，从用户行为序列中找到K个与目标物品最为相关的序列集合，第二个阶段对前一个阶段得到的较短行为序列通过exact search unit 模块来进行精准建模用户兴趣。 Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction

UBR4CTR 这篇是SIGIR20的工作，从用户的行为序列当中捕获用户的兴趣对于CTR模型来说是很有必要的，但是把长行为序列喂给模型对于在线推理面临着高响应延迟的问题，同时用户的长行为序列也存在着很多噪声。而当前工业界的解决方案是对用户长行为序列进行截断只把用户最近的行为序列喂给模型训练，这会导致模型学习不到用户周期性的兴趣以及行为序列里的长期依赖性。为了解决这个问题，本文提出User behavior Retrieval for CTR(UBR4CTR)框架从数据角度从整个用户历史行为记录搜索最相关和最合适的行为序列。 User Behavior Retrieval for Click-Through Rate Prediction

DTS 阿里优酷团队在AAAI20的工作，文中指出用户的兴趣会随着时间而动态变化，因此有必要考虑CTR模型当中的连续时间信息来跟踪用户的兴趣趋势。在这篇paper中，DTS模型通过在一个常微分方程（ODE）中引入时间信息，使用神经网络根据用户历史行为连续建模用户的兴趣演变。 Deep Time-Stream Framework for Click-through Rate Prediction by Tracking Interest Evolution

DMIN 本文是阿里发表在CIKM20的工作。从用户行为序列中抽取用户的兴趣的工作很多，本文指出用户在一个时间点的兴趣是多样的，而潜在的主要兴趣是通过用户行为表示。这篇文章提出使用DMIN模型来捕获用户潜在的多兴趣，DMIN网络主要由两部分组成，Behavior refiner layer 使用multi-head attention 对用户历史行为提炼，第二部分使用Multi-interest extractor layer 实现用户多兴趣的抽取。 Deep Multi-Interest Network for Click-through Rate Prediction

TIEN 本篇论文是阿里发表在CIKM20的工作。之前用来建模用户兴趣的CTR模型大都是从用户行为序列出发，但是缺乏对候选物品更丰富的建模。比如电商开展的促销活动会让某些热销商品成为用户的短期新兴趣。在上述场景下，仅仅使用用户行为序列通常无法预测用户产生的新兴趣，不仅因为用户行为当中有过时的兴趣，同时预测用户新的兴趣严重依赖于物品的演化过程。本文提出基于时间感知的深度物品演化网络（Deep Time-Aware item evolution network）来解决上述问题。 Deep Time-Aware Item Evolution Network for Click-Through Rate Prediction

四、基于position-bias 建模

PAL 本文是华为RecSys19的文章。大部分的CTR模型都是基于用户反馈进行数据收集训练的，往往这些收集到的训练数据存在位置偏差，准确来说对于不同的广告展示位置，点击率是不同的，展示位置越靠前，点击率越高，因此在建模的过程中有必要对这一部分位置信息进行建模。PAL(position-bias aware learning framework) 在分析将位置信息作为特征输入不足后，提出一种将位置作为模块单独预测的方法。 PAL: a position-bias aware learning framework for CTR prediction in live recommender systems

五、多任务学习（MTL）

DMR DMR（Deep Match to Rank）是阿里在AAAI20的工作，主要是将基于协同过滤思想的matching融入ranking阶段的CTR预估模型，以此提高了模型的个性化能力，这属于用多任务的想法来做CTR 预估一种。 Deep Match to Rank Model for Personalized Click-Through Rate Prediction

DMT 这篇是京东和百度发表在CIKM20的论文。通常现有的推荐算法通过优化单个任务来对商品进行排名，例如基于用户的点击行为，但是他们很少同时关注用户的多种行为建模或者共同优化。本文认为基于用户多种类型的行为来建模用户不同兴趣并且执行多任务学习可以同时优化多个目标。因此提出DMT (Deep Multifaceted transformers)对用户的多种行为建模，它利用Multi-gate mixture of experts 去优化多个目标，此外还利用unbiased learning去减小selection bias。 Deep Multifaceted Transformers for Multi-objective Ranking in Large-Scale E-commerce Recommender Systems

六、知识蒸馏和特征蒸馏

Ensembled CTR-KD 本篇论文是华为发表在CIKM20的工作。文中指出当前对于CTR预估的研究都在使用更加复杂的网络结构补捉特征之间的交叉信息，但是这些复杂模型耗时增加，难以应用在线上服务，本文提出使用知识蒸馏的策略轻量化CTR模型，同时为了提高模型性能，提出一种门机制用来ensemble CTR模型。 Ensembled CTR Prediction via Knowledge Distillation

PFD 这篇是阿里KDD20的工作。工业级推荐系统中，特征输入信号的强弱决定了模型和算法的上限，在实际应用中为了维护离线训练和在线预估的一致性，使得一些信号比较强的特征被排除在外，比如用户在商详页的停留时长。这种区分度高但是只能离线获取的特征我们称为优势特征。为了更加优雅地利用优势特征，本文提出优势特征蒸馏（Privileged feature Distillation）来解决这个问题。 Privileged Features Distillation at Taobao Recommendations

内容中包含的图片若涉及版权问题，请及时与我们联系删除

2020年精排模型调研

评论列表

评论