SEGAN: semi-supervised learning approach for missing data imputation

简介

在许多实际的现实应用中，数据缺失是一种非常常见的现象，这使得数据驱动的人工智能理论和技术的发展变得越来越困难。数据补全是一种重要的缺失数据预处理方法。大多数现有的缺失数据补全模型直接使用缺失数据集中已知的信息，但忽略了数据集中包含的数据标签信息对缺失数据补全模型的影响。为此，本文提出了一种基于半监督学习的缺失数据补全模型SEGAN，主要包括三个重要模块：生成器、判别器和分类器。在SEGAN模型中，分类器使生成器在预测缺失数据值时更充分地利用已知数据及其标签信息。此外，SEGAN模型引入了一个缺失提示矩阵，使判别器能够更有效地区分已知数据和由生成器填充的数据。本文理论上证明了引入分类器和缺失提示矩阵的SEGAN模型在达到纳什均衡时可以学习到真实的已知数据分布特征。最后，本文进行了大量实验，实验结果表明，与当前最先进的多元数据补全方法相比，SEGAN模型的性能提高了3%以上。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

SEGAN模型旨在解决现有缺失数据补全模型忽视数据标签信息对补全模型的影响的问题。
关键思路

SEGAN模型基于半监督学习，包含生成器、判别器和分类器三个重要模块。分类器能够使生成器更充分地利用已知数据及其标签信息来预测缺失数据值。同时，SEGAN模型引入了缺失提示矩阵，使得判别器能够更有效地区分已知数据和由生成器填充的数据。
其它亮点

论文在理论上证明了引入分类器和缺失提示矩阵的SEGAN模型在达到纳什均衡时能够学习到真实已知数据的分布特征。实验结果表明，相比当前最先进的多元数据补全方法，SEGAN模型的性能提高了3%以上。
相关研究

近期相关研究包括：《Deep Learning with Label Inconsistency: A Unified Semi-Supervised Framework》、《Semi-Supervised Learning with Generative Adversarial Networks》等。

SEGAN: semi-supervised learning approach for missing data imputation

提问交流

提问交流