International Conference on Data Engineering (ICDE) 数据工程国际会议是大数据、数据挖掘领域的顶级会议。华为诺亚方舟实验室推荐与搜索方向在多兴趣自监督学习和特征交互自动建模上的2篇长文发表于ICDE 2022会议,首次在工业推荐系统实现了兴趣级别的对比学习方案和特征交互建模方式自动选择算法。下文概要介绍这2项长文的研究成果。
论文1 MISS: Multi-Interest Self-Supervised Learning Framework for Click-Through Rate Prediction
近年来,随着推荐系统、广告、短视频等在线应用的发展与繁荣,点击率(CTR)预估的重要性也水涨船高。从早期的因子分解机到近年来基于深度学习的模型,现有的 CTR预估方法侧重于捕获有用的特征交互或者挖掘重要的行为模式,尽管有效,但存在标签稀疏(用户-物品交互相对于特征空间)、标签噪声(收集到的用户-物品交互通常是嘈杂的),以及领域知识低利用率(样本之间的成对相关性)等缺陷。我们提出了一种新的多兴趣自监督学习(Multi-InterestSelf-Supervised Learning 简称MISS) 框架,通过兴趣级别的自监督信号来增强特征嵌入的表征。在两个CNN 多兴趣提取器的帮助下,MISS可以同时考虑不同范围的兴趣表示(point-wise和union-wise),不同距离的兴趣依赖(short-range和long-range)和不同粒度的兴趣相关性(inter-item和intra-item)。在此基础上,对比损失函数被进一步应用于不同的增强的兴趣表征来有效地增强特征表征学习。我们提出的 MISS 框架可以用作“插件”适用于大部分已有的CTR 预测模型并进一步提高其性能。【诺亚推荐与搜索团队,新加坡国立大学,上海交大Apex实验室联合研究成果】
论文2 Memorize, Factorize, or be Naïve: Learning Optimal Feature Interaction Methods for CTR Prediction
当前CTR建模方法大体上可以归纳为三类:(1)naïve方法,即不对特征交互做显性建模;(2)memorized方法,即对特征交互进行记忆;(3)factorized方法,即通过学习原始特征的隐向量隐性建模。当前的研究已经表明:由于不同特征交互的单独特性,通过单一方式对特征交互进行建模并非最优解。为了解决这一问题,本文首先提出了OptInter模型框架,对不同的特征交互通过自动机器学习(AutoML)技术选择不同的建模方法。在四个数据集上的大量实验证明了我们的方法始终优于最新技术方法。【诺亚推荐与搜索团队,麦吉尔大学CPS实验室联合研究成果】
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢