- 简介时间序列填补模型的传统开发方式是使用完整的数据集,并通过人工掩码模式来模拟缺失值。然而,在实际的基础设施监测中,从业者常常会遇到大量数据缺失且缺失模式复杂、异构的数据集。为此,我们提出了DIM-SUM,这是一种用于训练鲁棒填补模型的预处理框架,旨在弥合人工掩码训练数据与真实缺失模式之间的差距。DIM-SUM结合了模式聚类和自适应掩码策略,并具备理论上的学习保障,能够应对数据中实际观察到的各种缺失模式。通过对来自加利福尼亚州水务区、电力数据集以及基准测试的超过20亿条记录进行广泛的实验,我们证明了DIM-SUM在性能上优于传统方法,能够在达到相近准确率的同时减少处理时间和所需训练数据量。与一个大型预训练模型相比,DIM-SUM在显著降低推理时间的同时,平均准确率提高了两倍。
-
- 图表
- 解决问题论文试图解决时间序列数据中缺失值填补(imputation)模型在真实应用场景下的性能不足问题。传统方法依赖于人工设计的缺失模式进行训练,而实际基础设施监测场景中缺失值往往呈现复杂、异构的缺失模式,导致现有模型效果不佳。这是一个现实中普遍存在但尚未被充分解决的问题。
- 关键思路论文提出DIM-SUM框架,通过结合缺失模式聚类与自适应掩码策略,在训练过程中引入真实数据中的缺失模式分布,从而提升模型对复杂缺失结构的鲁棒性。其核心创新在于将真实缺失模式融入训练过程,并提供理论学习保证,这与以往依赖人工掩码的方式有本质区别。
- 其它亮点1. 在超过20亿条加州水务数据、电力数据及基准数据集上进行了大量实验验证 2. 相比传统方法,在达到相似准确率的情况下所需训练数据更少、处理速度更快 3. 相较于大型预训练模型,DIM-SUM平均精度高出2倍且推理速度显著提升 4. 提出了可推广的时间序列缺失模式建模新范式 5. 暂未提及是否开源代码,值得后续关注
- 1. Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting (2022) 2. SAITS: Self-Attention-Based Imputation for Time Series (2022) 3. BRITS: Bidirectional Recurrent Imputation for Time Series (2018) 4. MissForest: Non-parametric Missing Value Imputation for Mixed-type Data (2012) 5. Interpolation-Prediction Networks for Irregularly Sampled Time Series (2019)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流