DIM-SUM: Dynamic IMputation for Smart Utility Management

向作者提问

NEW

简介

时间序列填补模型的传统开发方式是使用完整的数据集，并通过人工掩码模式来模拟缺失值。然而，在实际的基础设施监测中，从业者常常会遇到大量数据缺失且缺失模式复杂、异构的数据集。为此，我们提出了DIM-SUM，这是一种用于训练鲁棒填补模型的预处理框架，旨在弥合人工掩码训练数据与真实缺失模式之间的差距。DIM-SUM结合了模式聚类和自适应掩码策略，并具备理论上的学习保障，能够应对数据中实际观察到的各种缺失模式。通过对来自加利福尼亚州水务区、电力数据集以及基准测试的超过20亿条记录进行广泛的实验，我们证明了DIM-SUM在性能上优于传统方法，能够在达到相近准确率的同时减少处理时间和所需训练数据量。与一个大型预训练模型相比，DIM-SUM在显著降低推理时间的同时，平均准确率提高了两倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决时间序列数据中缺失值填补（imputation）模型在真实应用场景下的性能不足问题。传统方法依赖于人工设计的缺失模式进行训练，而实际基础设施监测场景中缺失值往往呈现复杂、异构的缺失模式，导致现有模型效果不佳。这是一个现实中普遍存在但尚未被充分解决的问题。
关键思路

论文提出DIM-SUM框架，通过结合缺失模式聚类与自适应掩码策略，在训练过程中引入真实数据中的缺失模式分布，从而提升模型对复杂缺失结构的鲁棒性。其核心创新在于将真实缺失模式融入训练过程，并提供理论学习保证，这与以往依赖人工掩码的方式有本质区别。
其它亮点

1. 在超过20亿条加州水务数据、电力数据及基准数据集上进行了大量实验验证 2. 相比传统方法，在达到相似准确率的情况下所需训练数据更少、处理速度更快 3. 相较于大型预训练模型，DIM-SUM平均精度高出2倍且推理速度显著提升 4. 提出了可推广的时间序列缺失模式建模新范式 5. 暂未提及是否开源代码，值得后续关注
相关研究

1. Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting (2022) 2. SAITS: Self-Attention-Based Imputation for Time Series (2022) 3. BRITS: Bidirectional Recurrent Imputation for Time Series (2018) 4. MissForest: Non-parametric Missing Value Imputation for Mixed-type Data (2012) 5. Interpolation-Prediction Networks for Irregularly Sampled Time Series (2019)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问