ICDE 2021 | 阿里巴巴 & 浙江大学：大规模知识图谱预训练及电商应用

本文介绍了浙江大学阿里巴巴知识引擎联合实验室在结构化知识预训练及电商领域应用方面的工作。该项工作的一部分内容将发表于ICDE2021。

论文名称：Billion-scale Pre-trained E-commerce Product Knowledge Graph Model
论文作者：张文（浙江大学）、黄志文（阿里巴巴）、叶橄强（浙江大学）、文博（浙江大学）、张伟（阿里巴巴），陈华钧*（浙江大学）

知识广泛存在于文本、结构化及多种模态的数据中。除了通过抽取技术将知识从原始数据中萃取出来以支持搜索、问答、推理、分析等应用以外，另外一种思路是利用数据中本身存在的基本信号对隐藏的知识进行预训练。随着GPT、BERT、XLNET等预训练语言模型在多项自然语言处理领域任务上都刷新了之前的最好效果，预训练受到了各界的广泛关注。预训练的核心思想是“预训练和微调”，例如文本预训练一般包含两个步骤：首先利用大量的自然语言数据训练一个语言模型，获取文本中包含的通用知识信息；然后在下游任务微调阶段，针对不同下游任务，设计相应的目标函数，基于相对较少的监督数据进行微调，便可得到不错的效果。

受预训练语言模型启发，我们将“预训练和微调”的思想应用到了大规模商品知识图谱的表示学习与业务应用中。在阿里电商平台，包含千亿级三元组和300多万条规则的商品知识图谱被构建起来，并为语义搜索、智能问答、商品推荐等众多下游业务任务提供知识图谱服务。通常知识图谱提供服务的方式是直接透出原始的三元组数据，这会导致以下问题

针对不同任务反复地进行数据选择和查询，存在大量冗余重复性工作；
下游任务需要针对自己的任务重新设计知识图谱算法，从头训练模型，由于图谱规模庞大，业务应用迭代周期过长导致效率低下；
商品知识图谱本身的不完整性会导致误差传导；
直接透出原始三元组存在数据公平性和隐私风险。

为了避免这个问题，使商品知识图谱更方便更有效地为下游任务服务，我们提出了“预训练+知识向量服务”的模式，并设计了知识图谱预训练模型PKGM(Pre-trained Knowledge Graph Model)，在不直接访问商品知识图谱中三元组数据的情况下，以知识向量的方式为下游任务提供知识图谱服务。我们在商品分类、同款商品对齐以及推荐等多个下游任务上验证了PKGM的有效性，其中在推荐任务上平均达到了 6%的提升，同时在实践中我们还证明了在困难数据尤其是样本较少的数据上提升效果更明显。此外，在电商业务的真实实践中，我们还将知识图谱预训练应用到了商品图片分类、用户点击预测等任务中，任务效果均获得了提升。知识图谱预训练对于具有亿级别节点量级的阿里商品知识图谱显得极为重要，因为这能够避免对庞大的商品知识图谱重复训练，从而能够更高效快速地为下游任务场景提供服务。

以下为本文的目录，感兴趣的可以戳原文。

1. 文章导读
2. 背景知识介绍
- 2.1 预训练语言模型
- 2.2 知识图谱结构化上下文
3. 商品知识图谱静态预训练模型
- 3.1 PKGM预训练
- 3.2 PKGM查询模块
- 3.3 PKGM知识图谱服务
- 3.4 PKGM在下游任务的应用
4. 商品知识图谱动态预训练模型
- 4.1 上下文模块和整合模块
- 4.2 预训练阶段和微调阶段
5. 部分应用实践及实验结果
- 5.1 基于知识图谱预训练的商品分类
- 5.2 基于知识图谱预训练的同款商品对齐
- 5.3 基于知识图谱预训练的商品推荐
6. 总结
7. 致谢

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ICDE 2021 | 阿里巴巴 & 浙江大学：大规模知识图谱预训练及电商应用

评论列表

评论