44种模型、1200种子网，RobustART评测CNN、Transformer、MLP-Mixer谁最鲁棒？

哪种模型对于噪音更加鲁棒？哪些模型架构和组件对于噪音有更强的抵御能力？对于这些问题的研究能够帮助我们更好地认识和理解模型鲁棒性的本质，从而帮助研究人员进行更加鲁棒的模型架构设计。进一步，这对于推进工业级鲁棒模型的评测和落地应用、并最终服务于国家相关智能模型鲁棒评测标准的推进和开展具有十分重大的意义！因此，来自北京航空航天大学、商汤科技和京东探索研究院的研究人员联合加州大学伯克利分校、牛津大学以及约翰斯 · 霍普金斯大学提出了第一个在大规模数据集 ImageNet 上面向模型结构（ARchitecture Design）和训练技巧（Training Technique）且针对多种噪音类型的模型鲁棒性评测基准——RobustART。

该 benchmark 全面评测了 44 种经典的手工设计和 1200 种 NAS 采样得到的模型架构以及 10 余种模型训练技巧对于鲁棒性（对抗噪音、自然噪音、系统噪音等）的影响。并通过海量且深入的实验探究，得出了大量的有价值实验结果和众多启发性的结论，如：

（1）对于 Transformer 和 MLP-Mixer，对抗训练可以全面提升其全部噪音鲁棒性和任务本身的效果；

（2）在模型大小一致的前提下，对于自然噪音和系统噪音鲁棒性：CNN>Transformer>MLP-Mixer，对于对抗噪音鲁棒性，Transformer>MLP-Mixer>CNN；

（3）对于一些轻量化的模型族，增加其模型大小或者增加训练数据并不能提升其鲁棒性等。这些分析和结论将对人们认识模型鲁棒性机理并设计安全稳固的模型架构产生重要的意义。

RobustART benchmark（1）提供了一个包含 leaderboard、数据集、源码等详实信息在内的开源平台；（2）开放了 80 余种使用不同模型结构和训练技巧的预训练模型，以便于研究人员进行鲁棒性评估；（3）贡献了崭新的视角和大量的分析结论，让研究人员更好地理解鲁棒模型背后的内在机制。

RobustART 将作为核心组成部分，整合到北航团队先前研发的人工智能算法与模型安全评测环境「重明」系统当中，并发布「重明」2.0 版本（「重明」是国内领先的智能安全评测环境，曾受邀在国家新一代人工智能开源社区 OpenI 启智开源开放平台发布，并荣获 OpenI 社区优秀开源项目）。

论文地址：https://arxiv.org/pdf/2109.05211.pdf
RobustART 开源平台网址：http://robust.art/
重明平台网址：https://github.com/DIG-Beihang/AISafety

内容中包含的图片若涉及版权问题，请及时与我们联系删除

44种模型、1200种子网，RobustART评测CNN、Transformer、MLP-Mixer谁最鲁棒？

评论列表

评论