使用NAS、剪枝、动态蒸馏升级检测器

论文标题：Joint-DetNAS: Upgrade Your Detector with NAS, Pruning and Dynamic

Distillation

论文来源：CVPR2021

作者单位：香港科技大学&华为诺亚

【推荐理由】

本文将NAS、剪枝、动态蒸馏有机结合，提出一个用于目标检测的NAS框架，该算法主要包括两个核心进程：学生态射（student morphism）是对学生的结构进行优化，去除冗余参数，而动态蒸馏(dynamic distillation)则是寻找最优的匹配教师网络。对于学生态射，采用权重继承策略，允许学生在充分利用前辈权重的同时灵活更新体系结构，大大加快了搜索速度；为了便于动态蒸馏，采用综合渐进收缩策略训练弹性教师池，采样教师检测器，而不增加后续搜索的成本。

【主要内容】

三种方法的优缺点：

NAS：参数不可知，训练与搜索解耦搜索的架构需要从头训练

剪枝：结构不可知，预训练模型结构固定

KD： 固定的教师-学生对，不需考虑两者之间的结构依赖

三者各有局限性，NAS和剪枝都只关注一个方面而忽略了另一个方面：当前NAS的范例认为体系结构是影响模型性能的唯一因素，而剪枝只考虑参数，与结构无关。而研究表明：修剪后的模型的最终性能高度依赖于它的再训练初始化，这表明结构和参数是高度依赖的，都很重要。另外，传统蒸馏中教师-学生对的结构关系非常武断，没有理论依据。同样有研究表明KD中存在结构性知识，这意味着教师的结构必须与学生相匹配，以促进知识迁移。因此提出将动态KD纳入文章框架，其中教师被动态采样，为学生找到最优匹配。

Joint-DetNAS框架

学生态射（Student Morphism）

调整输入检测器的backbone，使其能够更好地适应给定的任务。

动作空间（Action Space）

动作空间包含剪枝和网络态射，它允许学生灵活调整结构以充分利用预训练的权重。

剪枝

层剪枝：直接剪掉一层

通道剪枝：剪去不重要的通道

网络态射：

增加层：在给定位置插入新层并引入更多的容量以增强模型的性能

重新排列：将层从一个阶段移动到相邻阶段，可以灵活重新分配骨干网用于检测任务的计算预算

动态分辨率搜索（Search with Dynamic Resolution）

输入图像的分辨率对探测器的性能和推理速度起着重要的作用。没有将输入分辨率直接纳入搜索过程，（会大大扩展搜索空间），而是提出在每次训练迭代中动态采样一个分辨率来训练学生。因此，训练后可以对多个分辨率进行评估，提高了搜索效率。

综合渐进收缩训练(Training with Integrated Progressive Shrinking ,IPS)

训练过程：第一阶段，只训练最大超网

第二阶段：在接下来的阶段中，逐步将深度和宽度缩小的子网加入到子网空间中，而super-net作为教师对所有子网进行蒸馏

此外，本文提出的融合渐进收缩策略联合优化较小的深度和宽度，从而显著降低了训练成本。

检测任务的蒸馏

检测任务的蒸馏需要精细设计的蒸馏空间和位置信息，文章方法包含两个部分：特征级蒸馏最大化教师和学生骨架特征感兴趣区域之间的一致性；预测级蒸馏使用教师的预测输出作为软标签训练学生

(由于文档编辑问题，格式出现未知错误！)

内容中包含的图片若涉及版权问题，请及时与我们联系删除

使用NAS、剪枝、动态蒸馏升级检测器

评论