DIM-SUM: Dynamic IMputation for Smart Utility Management

VLDB 2025
2025年06月24日
  • 简介
    时间序列填补模型的传统开发方式是使用完整的数据集,并通过人工掩码模式来模拟缺失值。然而,在实际的基础设施监测中,从业者常常会遇到大量数据缺失且缺失模式复杂、异构的数据集。为此,我们提出了DIM-SUM,这是一种用于训练鲁棒填补模型的预处理框架,旨在弥合人工掩码训练数据与真实缺失模式之间的差距。DIM-SUM结合了模式聚类和自适应掩码策略,并具备理论上的学习保障,能够应对数据中实际观察到的各种缺失模式。通过对来自加利福尼亚州水务区、电力数据集以及基准测试的超过20亿条记录进行广泛的实验,我们证明了DIM-SUM在性能上优于传统方法,能够在达到相近准确率的同时减少处理时间和所需训练数据量。与一个大型预训练模型相比,DIM-SUM在显著降低推理时间的同时,平均准确率提高了两倍。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决时间序列数据中缺失值填补(imputation)模型在真实应用场景下的性能不足问题。传统方法依赖于人工设计的缺失模式进行训练,而实际基础设施监测场景中缺失值往往呈现复杂、异构的缺失模式,导致现有模型效果不佳。这是一个现实中普遍存在但尚未被充分解决的问题。
  • 关键思路
    论文提出DIM-SUM框架,通过结合缺失模式聚类与自适应掩码策略,在训练过程中引入真实数据中的缺失模式分布,从而提升模型对复杂缺失结构的鲁棒性。其核心创新在于将真实缺失模式融入训练过程,并提供理论学习保证,这与以往依赖人工掩码的方式有本质区别。
  • 其它亮点
    1. 在超过20亿条加州水务数据、电力数据及基准数据集上进行了大量实验验证 2. 相比传统方法,在达到相似准确率的情况下所需训练数据更少、处理速度更快 3. 相较于大型预训练模型,DIM-SUM平均精度高出2倍且推理速度显著提升 4. 提出了可推广的时间序列缺失模式建模新范式 5. 暂未提及是否开源代码,值得后续关注
  • 相关研究
    1. Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting (2022) 2. SAITS: Self-Attention-Based Imputation for Time Series (2022) 3. BRITS: Bidirectional Recurrent Imputation for Time Series (2018) 4. MissForest: Non-parametric Missing Value Imputation for Mixed-type Data (2012) 5. Interpolation-Prediction Networks for Irregularly Sampled Time Series (2019)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问