- 简介在制造过程中,了解机器之间的因果关系对于故障诊断和优化至关重要。现实世界的数据集通常存在高达90%的缺失数据和来自数百个传感器的高维度。这些数据集还包括领域特定的专家知识和时间顺序信息,反映了不同机器之间的记录顺序,这对于辨别制造数据中的因果关系至关重要。然而,先前处理类似于现实世界条件下缺失数据的方法未能有效利用专家知识。相反,能够整合专家知识的先前方法在处理存在缺失值的数据集时遇到困难。因此,我们提出了COKE,通过利用专家知识和传感器之间的时间顺序来构建制造数据集中的因果图,而无需填补缺失数据。利用配方的特征,我们最大化了具有缺失值的样本的利用,从与初始图相交的嵌入中推导出嵌入,并创建传感器排序图。图形生成过程通过演员-评论家架构进行了优化,以获得具有最大奖励的最终图形。在不同传感器数量和缺失比例的多种设置下进行的实验评估表明,与基准方法相比,我们的方法在F1分数上平均提高了39.9%。此外,当考虑类似于现实世界数据集的配置时,F1得分的提高可以达到62.6%,在真实的半导体数据集中则可以达到85.0%。源代码可在https://github.com/OuTingYun/COKE上获得。
- 图表
- 解决问题本论文旨在解决在制造过程中出现的机器之间因果关系的诊断和优化问题。然而,真实数据集中通常存在高达90%的缺失数据和高维度的传感器数据,因此需要一种方法来处理缺失数据并利用领域专家知识。
- 关键思路本文提出了一种名为COKE的方法,利用领域专家知识和传感器之间的时间顺序构建制造数据集中的因果图,而无需填补缺失数据。该方法利用样本中的缺失值,从初始图中的交叉点派生嵌入,并创建传感器排序图。最终图表是由演员-评论家体系结构进行优化的。
- 其它亮点本文的实验验证了COKE方法在不同传感器数量和缺失比例的情况下相比基准方法在F1-score上平均提高了39.9%。当考虑到类似于真实数据集的配置时,F1-score的提高可以达到62.6%,而在真实半导体数据集中,F1-score的提高率为85.0%。此外,本文提供了开源代码。
- 在最近的相关研究中,也有一些关于制造数据集中因果关系的研究,例如:“Causal Discovery from Nonstationary/Heterogeneous Data: Skeleton Estimation and Orientation Determination”,“Learning Causal Models of Industrial Processes for Root Cause Analysis and Quality Prediction”等。
沙发等你来抢
去评论
评论
沙发等你来抢