A General Framework for Data-Use Auditing of ML Models

简介

在训练机器学习（ML）模型中审计数据使用是一个越来越紧迫的挑战，因为众多的ML从业者通常利用内容创作者的努力来训练模型，而没有得到他们的许可。在本文中，我们提出了一种通用的方法来审计ML模型中使用数据所有者的数据的情况，而不需要事先知道数据可能用于哪种ML任务。我们的方法利用任何现有的黑盒成员推断方法，结合我们自己设计的顺序假设检验，以检测数据使用，并具有可量化、可调节的误检率。我们通过将其应用于审计两种类型的ML模型，即图像分类器和基础模型，展示了我们提出的框架的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何审计机器学习模型中使用的数据，以避免未经授权使用数据的问题？
关键思路

提出了一种通用方法，利用黑盒成员推断方法和自己设计的顺序假设检验来检测数据使用情况，可以调整误检率。
其它亮点

论文在图像分类器和基础模型中应用了该方法，并证明了其有效性。实验使用了哪些数据集和开源代码没有说明。
相关研究

最近的相关研究包括基于深度学习的成员推断方法和隐私保护技术等。