作者:Rahul Goel, Modar Sulaiman, Kimia Noorbakhsh,等
简介:本文是欧洲爱沙尼亚塔尔图大学、伊朗谢里夫理工大学、美国南卡罗来纳州大学在预训练语言模型与视觉任务结合领域三方合作的最新学术成果。面部图像揭示了许多隐藏的个人特征,如年龄、性别、种族、健康、情绪和心理。了解这些特征将有助于将人们划分为不同的属性。在本文中,作者提出了一种利用预训练Transformers模型对图像进行分类的新方法。作者应用预训练Transformers 对犯罪和非犯罪类别的人脸图像进行二值分类。GPT-2的预训练Transformers 经过训练生成文本,然后进行微调以对人脸图像进行分类。在图像微调过程中,GPT-2的大部分层在反向传播过程中冻结,模型为冻结预训练Transformers (FPT)。FPT作为一种通用的图像分类器,本文展示了FPT在人脸图像中的应用。作者还在加密图像上使用FPT进行分类。作者的FPT在原始面部图像和加密图像上都显示出高精度。作者假设FPT因其规模大而获得元学习能力,并通过理论和实验进行了大规模训练。GPT-2经过训练,通过自回归过程,一次生成一个单词标记,被迫进行重尾分布。然后,FPT使用重尾特性作为其元学习能力对图像进行分类。作者的工作展示了一种在图像机器分类过程中避免偏差的方法。FPT编码世界知识,因为它在分类过程中使用一个文本的预训练。由于增加了从文本中获得的上下文,分类的统计误差降低了。作者的论文展示了使用加密数据进行分类的道德层面。犯罪图像对跨境共享非常敏感,但加密后的图像在很大程度上避免了道德问题。FPT在加密图像上显示出良好的分类精度,为进一步研究隐私保护机器学习提供了希望。
论文下载:https://arxiv.org/pdf/2201.10182.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢