WeShap: Weak Supervision Source Evaluation with Shapley Values

2024年06月16日
  • 简介
    高效的数据标注是训练现代机器学习模型的一个重要瓶颈。程序化弱监督(PWS)管道通过利用多个弱监督源自动标记数据,从而加速注释过程,提供了一种解决方案。鉴于这些弱监督源对PWS准确性的不同贡献,使用强大和高效的度量标准对它们进行评估至关重要。这不仅有助于了解PWS管道的行为和性能,还有助于采取纠正措施。 在我们的研究中,我们引入了WeShap值作为评估指标,它利用Shapley值的理论基础来量化代理PWS管道中弱监督源的平均贡献。我们使用动态规划实现了WeShap值的高效计算,相对于弱监督源的数量,实现了二次计算复杂度。 我们的实验展示了WeShap值在各种应用中的多功能性,包括识别有益或有害的标记函数,改进PWS管道和纠正错误标记的数据。此外,WeShap值有助于理解PWS管道的行为并审查特定实例的错误标记数据。虽然最初是从特定代理PWS管道中导出的,但我们通过实证研究证明了WeShap值的普适性适用于其他PWS管道配置。 我们的研究结果表明,与先前的最先进方法相比,通过修订PWS管道,下游模型准确性平均提高了4.8个百分点,突显了WeShap值在提高训练机器学习模型的数据质量方面的效力。
  • 图表
  • 解决问题
    解决数据标注在训练机器学习模型中的瓶颈问题,提出了利用多个弱监督源进行自动标注的PWS管道,并需要一个强大高效的评估度量来评估这些弱监督源的贡献。
  • 关键思路
    提出了WeShap值作为评估度量,利用Shapley值的理论基础来量化弱监督源的平均贡献,并通过动态规划实现高效计算。WeShap值可以用于识别有益或有害的标注函数,改进PWS管道,纠正标注错误等,从而提高训练机器学习模型的数据质量。
  • 其它亮点
    实验结果表明,相对于之前的最新方法,通过修订PWS管道,使用WeShap值可以显著提高下游模型的准确性平均提高4.8个百分点。WeShap值的应用还具有通用性,可以适用于其他PWS管道配置。论文还提供了开源代码和数据集。
  • 相关研究
    最近的相关研究包括:《A survey of weakly supervised learning》、《Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics》、《Learning with Weak Supervision from Physics and Data-Driven Constraints》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论