Deep Bag-of-Words Model: An Efficient and Interpretable Relevance Architecture for Chinese E-Commerce

2024年07月12日
  • 简介
    文本相关性或文本匹配是电子商务搜索系统中的一项重要技术,以确保显示的产品能够与查询的意图相匹配。许多研究致力于改进搜索系统中相关性模型的性能。最近,像BERT这样的预训练语言模型在文本相关性任务上取得了很好的表现。虽然这些模型在离线测试数据集上表现良好,但由于其高延迟,将预训练语言模型部署到在线系统仍然存在障碍。双塔模型在工业场景中被广泛使用,因为它能够在性能和计算效率之间达到平衡。不幸的是,这些模型呈现出不透明的“黑匣子”性质,这阻止了开发人员进行特殊优化。在本文中,我们提出了一种深度词袋(DeepBoW)模型,这是一种高效且可解释的用于中文电子商务的相关性架构。我们的方法提出将查询和产品编码为稀疏词袋表示形式,这是一组单词-权重对。权重表示相应单词与原始文本之间的重要性或相关性得分。相关性得分通过匹配查询和产品的稀疏词袋表示形式中匹配的单词进行累积计算。与通常存在黑匣子缺陷的流行密集分布表示相比,所提出的表示模型最大的优点是高度可解释和可干预,这是在线搜索引擎部署和操作的优越优势。此外,所提出模型的在线效率甚至优于密集表示的最有效内积形式...
  • 图表
  • 解决问题
    提出一种高效且可解释的深度Bag-of-Words(DeepBoW)模型,用于解决中文电商搜索引擎中的文本匹配问题。
  • 关键思路
    通过将查询和产品编码为稀疏的Bag-of-Words表示形式,来度量它们之间的相关性。相比于黑盒的密集表示形式,DeepBoW模型具有高度可解释性和可干预性。
  • 其它亮点
    论文使用了中文电商搜索引擎数据集进行实验,并与其他模型进行了比较。DeepBoW模型在准确性和在线效率方面都表现出色。此外,DeepBoW模型的可解释性和可干预性使其在实际应用中更易于优化和操作。
  • 相关研究
    最近的研究集中在改进搜索引擎中的文本匹配模型,如BERT。而DeepBoW模型则是一种新的、高效且可解释的模型,与传统的基于向量空间模型的方法不同。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论