CADC: Encoding User-Item Interactions for Compressing Recommendation Model Training Data

简介

深度学习推荐模型（DLRM）是当前电子商务行业的核心。然而，用于训练这些大型模型的训练数据量呈指数级增长，导致训练存在重大障碍。训练数据集包含两种主要类型的信息：基于内容的信息（用户和物品的特征）和协作信息（用户和物品之间的交互）。减少训练数据集的一种方法是删除用户-物品交互。但是，这会显著降低协作信息的质量，而协作信息是维护准确性的关键，因为它包含了交互历史。这种损失会深刻影响DLRM的性能。本文提出了一个重要观察，即如果能够捕获用户-物品交互历史以丰富用户和物品的嵌入，则可以压缩交互历史而不会丢失模型的准确性。因此，本文提出了一种名为协作感知数据压缩（CADC）的方法，采用两步方法来压缩训练数据集。第一步，我们使用用户-物品交互矩阵的矩阵分解来为用户和物品创建新的嵌入表示。一旦用户和物品的嵌入通过交互历史信息得到丰富，该方法就应用统一随机抽样的训练数据集来大幅减少训练数据集的大小，同时最小化模型准确性的下降。CADC的源代码可在\href{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}{https://anonymous.4open.science/r/DSS-RM-8C1D/README.md}上找到。
图表
解决问题

论文试图解决如何在保持模型准确性的同时减少训练数据集的大小的问题，以应对深度学习推荐模型中训练数据呈指数级增长的挑战。
关键思路

该论文提出了一种名为CADC的方法，通过捕捉用户-物品交互历史来丰富用户和物品嵌入，并应用均匀随机采样来大幅减少训练数据集的大小，同时最小化模型准确性下降。
其它亮点

该方法在两个数据集上进行了实验，并与其他数据压缩方法进行了比较。实验表明，CADC方法能够显著减少训练数据集的大小，同时保持模型准确性。此外，该论文提供了CADC的开源代码。
相关研究

近期的相关研究包括： 1. "Deep Learning for Recommender Systems: A Survey and New Perspectives" by Zhang et al. 2. "Collaborative Filtering with Temporal Dynamics" by Koren et al. 3. "Neural Collaborative Filtering" by He et al.

CADC: Encoding User-Item Interactions for Compressing Recommendation Model Training Data

评论