Class-Based Time Series Data Augmentation to Mitigate Extreme Class Imbalance for Solar Flare Prediction

2024年05月31日
  • 简介
    时间序列数据在各个领域中起着至关重要的作用,因此对于决策和预测建模具有很高的价值。机器学习(ML)和深度学习(DL)在这方面表现出了很好的前景,但它们的性能取决于数据质量和数量,通常受到数据稀缺性和类别不平衡的限制,特别是对于像太阳耀斑这样的罕见事件。数据增强技术提供了一个潜在的解决方案来解决这些挑战,但它们在多变量时间序列数据集上的有效性仍未得到充分探索。在本研究中,我们提出了一种新的时间序列数据增强方法,名为平均高斯噪声(MGN)。我们使用一种面向时间序列数据的机器学习算法TimeSeriesSVC,在太阳耀斑预测的多变量时间序列数据集SWAN-SF上,比较了MGN和现有的八种基本数据增强方法的性能。结果表明,MGN的有效性得到了证明,并且突出了它在极度不平衡数据情况下改善分类性能的潜力。我们的时间复杂度分析表明,与其他探究的替代方法相比,MGN的计算成本也是具有竞争力的。
  • 图表
  • 解决问题
    本论文旨在探究多变量时间序列数据的数据增强方法,以提高极度不平衡数据场景下的分类性能,解决数据稀缺和类别不平衡等问题。
  • 关键思路
    本文提出了一种名为Mean Gaussian Noise (MGN)的新型数据增强方法,通过给原始数据添加高斯噪声来生成新的数据样本,同时保持原始数据的均值不变。相比于现有的八种基本数据增强方法,MGN在多变量时间序列数据集上表现出更好的分类性能。
  • 其它亮点
    本文使用了一个面向时间序列数据的机器学习算法TimeSeriesSVC,对太阳耀斑预测的多变量时间序列数据集SWAN-SF进行了实验。结果表明,MGN方法在极度不平衡的数据场景下具有很好的分类性能,同时具有与其他方法相当的计算成本。本文的方法对于解决数据稀缺和类别不平衡等问题具有很强的实用性。
  • 相关研究
    近期的相关研究包括利用深度学习方法进行时间序列数据的分类和预测,以及数据增强方法在计算机视觉和自然语言处理领域的应用。其中,部分相关研究的论文标题包括:'Deep Learning for Time-Series Analysis','Data Augmentation Techniques for Imbalanced Datasets in Computer Vision: A Survey'。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论