Revisiting Multivariate Time Series Forecasting with Missing Values

2025年09月27日
  • 简介
    真实世界的时间序列中缺失值十分常见,而含缺失值的多变量时间序列预测(MTSF-M)已成为确保预测可靠性的一项关键研究课题。为应对缺失数据带来的挑战,现有方法普遍采用“先填补后预测”的框架,即先利用填补模块补全缺失值,再基于填补后的数据进行预测。然而,该框架忽略了一个关键问题:缺失值本身并无真实标签,导致填补过程容易产生错误,进而损害预测的准确性。本文开展了一项系统的实证研究,揭示出在缺乏直接监督的情况下进行填补可能会破坏数据本身的分布结构,并显著降低预测性能。为解决这一问题,我们提出一种范式转变:摒弃填补步骤,直接从部分观测到的时间序列中进行预测。我们提出了“一致性正则化信息瓶颈”(CRIB),这是一种基于信息瓶颈原理的全新框架。CRIB结合了单变量统一注意力机制与一致性正则化策略,能够学习到鲁棒的表征,在滤除由缺失值引入的噪声的同时,保留关键的预测性信号。在四个真实世界数据集上的大量实验表明,CRIB方法即使在高缺失率情况下仍能实现准确预测。我们的代码已公开于 https://github.com/Muyiiiii/CRIB。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决多变量时间序列预测中存在缺失值的问题(MTSF-M),传统方法采用先插补后预测的框架,但由于缺失值没有真实标签,插补过程容易引入误差并破坏数据分布,从而降低预测准确性。这个问题在实际应用中非常普遍,但现有方法未能有效应对插补带来的偏差,因此需要更鲁棒的解决方案。
  • 关键思路
    提出一种范式转变:放弃显式插补,转而直接从部分观测的时间序列进行预测。论文提出的CRIB框架基于信息瓶颈原理,通过统一单变量注意力机制和一致性正则化,学习能够过滤缺失噪声同时保留关键预测信号的稳健表征。这种方法避免了对缺失值进行无监督插补所带来的错误传播问题,具有概念上的新颖性和实用性。
  • 其它亮点
    作者进行了系统的实证研究,验证了无监督插补会损害预测性能;CRIB在四个真实世界数据集上表现出色,即使在高缺失率下仍保持准确预测;框架设计合理,结合注意力与正则化策略提升模型鲁棒性;代码已开源,便于复现与后续研究。未来可探索该范式在其他含缺失数据的任务中的推广,如异常检测或分类。
  • 相关研究
    近期相关研究包括《Generative Time Series Imputation with Self-Supervised Contextual Adjustment》(2023)、《SAITS: Self-Attention based Imputation for Time Series》(2022)、《BRITS: Bidirectional Recurrent Imputation for Time Series》(2018)、《Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting》(2020)以及《Missing Value Imputation Affects the Performance of Machine Learning: A Review and Empirical Study》(2023)。这些工作大多集中在如何更好地插补缺失值,而CRIB则跳出了这一范式,代表了新的研究方向。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问