End-to-end multi-modal product matching in fashion e-commerce

简介

产品匹配是在线市场和电商公司为了更好的发现、策展和定价而识别同一产品不同表现形式的关键能力。我们在行业环境中提出了一个强大的多模态产品匹配系统，其中大规模数据集、数据分布变化和未知领域都带来了挑战。我们比较了不同的方法，并得出结论，即通过对比学习训练的预训练图像和文本编码器的相对简单的投影可以实现最先进的结果，同时平衡成本和性能。我们的解决方案优于单模态匹配系统和大型预训练模型（如CLIP）。此外，我们展示了如何将人机交互过程与基于模型的预测相结合，以在生产系统中实现近乎完美的精度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决产品匹配问题，提高在线市场和电子商务公司的产品发现性、策划和定价能力。同时，解决大规模数据、数据分布转移和未知领域等问题。
关键思路

通过对预训练图像和文本编码器的投影，结合对比学习技术，实现多模态产品匹配的系统。相比单模态匹配系统和大型预训练模型，该方案在平衡成本和性能的同时取得了最先进的结果。
其它亮点

实验结果表明，该系统在生产环境中结合人工审核，可以实现接近完美的精度。论文使用了多个数据集，并与其他方法进行了比较。该系统的开发可以为在线市场和电子商务公司提供更好的产品匹配能力。
相关研究

最近的相关研究包括：CLIP等大型预训练模型的研究，以及其他多模态匹配方法的研究。

End-to-end multi-modal product matching in fashion e-commerce

提问交流

提问交流