- 简介随着人工智能系统计算需求的增加,出现了为缺乏必要资源的客户训练模型的服务。然而,确保训练的正确性并防范潜在的训练时攻击,如数据污染,是具有挑战性的。现有的可验证训练方法主要分为两类:基于证明的系统,由于需要加密技术而难以扩展;和“乐观”的方法,考虑到一个可信的第三方审计员复制训练过程。后一种方法的一个关键挑战是,在训练期间 GPU 类型之间的硬件非确定性会阻止审计员完全复制训练过程,这些方案因此不够稳健。我们提出了一种方法,将训练精度设置为比目标模型更高,经过中间计算步骤后进行舍入,并基于自适应阈值过程存储舍入决策,以成功控制非确定性。在三种不同的 NVIDIA GPU(A40、Titan XP、RTX 2080 Ti)上,我们实现了对 ResNet-50(23M)和 GPT-2(117M)模型的完全训练和微调的 FP32 精度的精确复制。我们的可验证训练方案大大降低了存储和时间成本,与基于证明的系统相比。
- 图表
- 解决问题如何确保在使用服务进行机器学习模型训练时的正确性和安全性?
- 关键思路使用高于目标模型精度的训练方法,通过中间计算步骤的四舍五入和自适应阈值存储来控制硬件非确定性,从而实现可验证的训练。
- 其它亮点通过实验验证,该方法可以在三种不同的NVIDIA GPU上成功实现ResNet-50(23M)和GPT-2(117M)模型的完全复制,而且相比于基于证明的系统,该方法可以显著降低存储和时间成本。
- 目前的可验证训练方法主要分为基于证明的系统和基于第三方审核员的乐观方法,而本文提出的方法则结合了两种方法的优点,解决了基于第三方审核员方法中的硬件非确定性问题。
沙发等你来抢
去评论
评论
沙发等你来抢