IEEE TPAMI | 基于标注偏差估计的实例相关PU学习

现实生活中，许多情况下由于负类样本的获取比较困难或负类样本太过多样，因此模型训练时只有正样本和大量的未标注样本。为处理这种情况，PU学习（Positive and Unlabeled Learning，简称PU learning）被提出，以处理只有正类和未标注数据情况下的分类器训练问题。本文研究了实例相关的PU分类，具体是指其中一个正样本是否会被标注（由 \( s \) 表示）不仅与类别标签 \( y \) 相关，还取决于特征向量 \( x \) 。换而言之，正样本被标注的概率并不满足以前工作的假设——即所有正样本以相同概率被均匀标注。因此，本文提出了标注偏差估计的方法来处理这种实例相关的PU学习问题。目前，该文已发表于人工智能国际顶级期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》。

文章链接：https://ieeexplore.ieee.org/abstract/document/9361303

本文中的PU学习方法与现有的方法比较。(a)为现有的实例无关PU学习方法，(b)为本文中的实例相关PU学习方法。

本文通过建模分析提出了一种名为“标注偏差估计”（LBE）的概率方法。它估计了正类数据的标注偏差并训练分类器。通过该方法模型的构建过程和对实验结果的分析，可以得到LBE的优势包括四个方面：

1)一般性：该模型框架的一般性包括两个方面，一是LBE可以广泛地适应当下的主流分类器，如本文提出的LF和MLP；另一方面，只要改变用户定义的，LBE就可以灵活地描述各种标注偏差。

2)最优性：LBE可以利用具有明确目标函数的Logistic回归来实现，并且可以从理论上证明其解的存在性和局部唯一性。

3)泛化性：可以从理论上证明，对于LBE模型如果正类数据和未标注数据的数量足够大，期望风险将收敛于经验风险，即该模型在未知数据上具有良好的泛化性。

4)实用性：LBE模型与许多现有的PU分类器不同，其不需要预先估计先验概率，并且该先验概率实际上不容易获得。此外，LBE模型不包含任何超参数。因此，它可以在各种实际场景下轻松实现。

在LBE方法中，明确建立了输入特征向量 \( x \epsilon R^d \) 、真实标签值 \( y \epsilon \{0, 1\} \) 和变量 \( s \epsilon \{0,1\} \) （研究背景中已作定义，表示 \( x \) 是否被标注）之间的关系（见图1(b)）。 \( x \) 、\( y \) 和 \( s \) 之间的关系可以用图1(b)所示的图模型来描述。首先，数据的标签值 \( y \)（即该数据所属的类别）显然取决于数据的特征向量 \( x \) 。其次，该数据的 \( s \) 值（即该数据是否会被标注）不仅取决于标签值 \( y \) ，还取决于其特征向量 \( x \) 。这也是LBE方法与现有的PU学习方法最大的不同之处，LBE方法在考虑了依赖关系 \( y\rightarrow s \) 之外还考虑了关系 \( x\rightarrow s \) 。在实际问题中，由于数据的标注难度或标注者的专业特长等各种因素，因此考虑标注偏差，即考虑 \( x\rightarrow s \) 是十分必要的。

基于上述定义，并结合图1(b)，可以得到以下关于、和的产生式，即

对于输入特征向量 \( x \) 的后验概率 \( P ( x|y) \)，可等效为参数为 \( \theta_{1} \) 的score函数 \( h(x; \theta_{1}) \) 。对于 \( P (s| y, x) \)，由于只有正类数据才有可能被标注，因此可得以下各式：

其中 \( \eta(x; \theta_{2} ) \) 是参数为 \( \theta_{2} \) 的score函数，其值表示在 \( y=1 \) 时 \( x \) 被标注的概率。

本文提供了 \( h(x; \theta_{1}) \) 和 \( \eta(x; \theta_{2} ) \) 的两种实现方式。第一种基于Logistic函数（结合本文方法命名为“LBE-LF”），第二种是基于典型的多层感知器（MLP）神经网络，该模型在本文中称为“LBE-MLP”。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

IEEE TPAMI | 基于标注偏差估计的实例相关PU学习

评论列表

评论