推荐或者 CTR 预估任务有一个很突出的特点:存在海量稀疏特征。海量意味着数量巨大,稀疏意味着即使在很大的训练数据里,大量特征出现频次也非常低,这往往是由于引入了大量 ID 类特征带来的。对于 DNN 排序系统,是否能够找到好的特征 Embedding 表达方式,对于系统效果是至关重要的。 虽然说,如何更好地表征稀疏特征对于模型的泛化能力至关重要,但是,关于这块的研究,除了经典的特征 Onehot 到稠密 Embedding 映射模式外,之前并未太受到重视,最近开始逐步涌现出一些相关工作。对于序列行为中的 Item Embedding,拥有怎样性质的 Embedding 表达方式是较好的?对于非行为序列的推荐模型,关于特征 Embedding,大家常规采用的做法是:将特征的 Embedding Size 作为超参,通过手工测试来寻找好的 Embedding 大小。然而,是否有更好的方式?这些都是悬而未决的问题。 本文将介绍两个与稀疏特征 Embedding 相关的工作,一篇来自于阿里妈妈发表在 DLP-KDD2019 的论文,回答了第一个问题;另外一篇来自于谷歌,尝试解决第二个问题。

内容中包含的图片若涉及版权问题,请及时与我们联系删除