【NeurIPS22系列】序列(推荐)模型分布外泛化：因果视角与求解

论文题目： Towards Out-of-Distribution Sequential Event Prediction: A Causal Treatment

作者信息： 杨晨晓 (上海交大)，吴齐天 (上海交大)，Qingsong Wen (阿里达摩院)，Zhiqiang Zhou (阿里达摩院)，Liang Sun (阿里达摩院), 严骏驰 (上海交大)

论文链接： https://openreview.net/pdf?id=XQu7UFSbzd2

代码链接： https://github.com/chr26195/Caseq

序列事件预测的目标是根据历史事件序列来估计下一个事件，典型的应用是序列推荐系统，即给定用户的历史点击记录来预测用户下一个可能会点击的商品。在实际场景中，由于数据收集的有限性，往往只能利用某个过去时间窗口内的数据来训练模型，而后模型需要在未来的部署阶段给出预测结果。然而，由于时间和环境的变化，模型从线下训练到上线的过程中会面临分布偏移的挑战，即训练时的数据和部署后的测试数据来自不同的分布，从而导致性能下降。

本文主要探索的问题是：如何训练一个可靠的序列模型，它可以有效泛化到未知分布的测试数据上？ 为此，我们首先从序列数据生成的角度揭示了现有的基于极大似然估计（MLE）训练方法的模型的缺陷：由于数据中潜在的环境因素所带来的bias而无法很好的泛化。对此，我们基于因果干预和后门调整对学习目标进行改进，并进一步利用变分推断得到了一个可求解的新的优化目标。另一方面，我们为这个学习方法设计了一个灵活的模型框架，可以和现有的序列事件预测模型结合在一起，提升模型的分布外泛化能力，并在不同的实验任务上验证了方法的有效性、适用性和可扩展性。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

【NeurIPS22系列】序列(推荐)模型分布外泛化：因果视角与求解

评论列表

评论