Efficient Transformer Encoders for Mask2Former-style models

2024年04月23日
  • 简介
    基于视觉变换器的模型为图像分割任务带来了显著的改进。尽管这些架构在特定的分割任务方面具有强大的能力,但它们对计算资源的使用可能会对部署设备造成负担。克服这一挑战的一种方法是通过将计算级别适应于输入图像的特定需求,而不是当前的一种大小适合所有的方法。为此,我们引入了ECO-M2F或EffiCient TransfOrmer Encoders for Mask2Former-style models。注意到M2F-style模型的编码器模块会产生高资源密集型计算,ECO-M2F提供了一种策略,可以根据输入图像自我选择编码器中的隐藏层数。为了实现这种自我选择能力,以提供性能和计算效率之间的平衡,我们提出了一个三步骤的配方。第一步是训练父架构以启用从编码器中早期退出。第二步是创建一个推导数据集,其中包含每个训练示例所需的理想编码器层数。第三步是使用上述推导数据集来训练一个门控网络,该网络预测要使用的编码器层数,条件是输入图像。此外,为了改变计算-精度权衡,只需要重复第二步和第三步,这显著减少了重新训练的时间。公共数据集上的实验表明,所提出的方法减少了预期的编码器计算成本,同时保持了性能,适应了各种用户计算资源,具有灵活的架构配置,并且可以扩展到目标检测任务。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决基于Transformer的图像分割模型在计算资源上的高昂成本问题,提出了一种自适应计算资源的ECO-M2F模型,旨在平衡性能和计算效率。
  • 关键思路
    ECO-M2F模型通过自适应选择编码器中的隐藏层数,以适应输入图像的需要,从而实现计算资源的高效利用。该模型的设计方案包括三个步骤:训练父模型以实现从编码器中的早期退出、创建每个训练样本所需的理想编码器层数的衍生数据集、使用衍生数据集训练门控网络,以预测要使用的编码器层数。该模型具有灵活的架构配置,并可扩展到目标检测等其他领域。
  • 其它亮点
    本文的亮点包括:提出了一种自适应计算资源的ECO-M2F模型,具有高效利用计算资源的能力;通过三个步骤实现了模型的自适应选择编码器层数;实验结果表明,该模型在保持性能的同时降低了编码器的计算成本,并且具有灵活的架构配置和扩展性。
  • 相关研究
    与本文相关的研究包括基于Transformer的图像分割模型、自适应计算资源的模型设计等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问