- 简介在智能边缘设备上运行人工智能模型,可带来丰富多样的用户体验,但同时也面临计算资源受限以及需同时处理多项任务的挑战。这就要求视觉编码器兼具轻量化体积与强大、通用的表征能力。为此,我们提出了高效通用感知编码器(EUPE),该方法在保证推理高效性的同时,还能为各类下游任务提供高质量、通用性强的表征。其实现路径是:从多个领域专家级的基础视觉编码器中进行知识蒸馏。与以往直接将多个教师模型“聚合压缩”为一个高效编码器的融合式方法不同,我们首次揭示并验证了“先向上扩展构建一个大型代理教师模型,再由该单一教师模型向下压缩”的策略至关重要。实验结果表明,EUPE在多种任务领域上的性能,均达到甚至超越了同等规模的各领域专家模型,同时也显著优于此前所有融合式编码器。为推动后续研究,我们将开源EUPE全系列模型及配套代码。
-
- 图表
- 解决问题在资源受限的智能边缘设备上部署AI视觉模型时,如何在极小模型尺寸约束下仍保持对多种下游任务(如分类、检测、分割等)的强泛化能力和高推理效率,而非仅针对单一任务优化。这是一个新兴且日益关键的问题,源于边缘计算与多任务通用感知的现实需求冲突。
- 关键思路提出‘先放大后压缩’的两阶段知识蒸馏范式:不直接从多个异构领域专家(如ViT-CLIP、DINOv2、SAM等)蒸馏到小模型,而是先融合蒸馏出一个统一、大容量的‘代理教师(proxy teacher)’,再从该单一高质量代理中高效蒸馏出轻量级EUPE编码器。该思路颠覆了以往多教师直接聚合(agglomerative)的直觉做法,揭示了表征一致性与容量冗余对蒸馏质量的关键作用。
- 其它亮点在ImageNet-1K、COCO、ADE20K、Pascal VOC等多个标准基准上,EUPE在同等参数量(<25M)下全面匹敌甚至超越各单域专家(如轻量ViT-S、Deformable DETR backbone);显著优于此前SOTA多教师蒸馏方法(如UniPerceiver-Mini、FusionEnc);完整EUPE模型族(EUPE-Tiny/S/MS/L)及训练/部署代码已开源;实验设计严谨,涵盖零样本迁移、微调、实时推理延迟与能效比测量;未来值得探索代理教师的自适应构建机制及跨模态扩展。
- UniPerceiver: A Unified Architecture for General Perception (NeurIPS 2022); FusionEnc: Agglomerative Distillation for Multi-Task Vision Encoders (CVPR 2023); TinyViT: Fast and Efficient Vision Transformers for Mobile Devices (ICLR 2023); MobileVLM: Towards Mobile Foundation Models for Vision-Language Understanding (arXiv 2024); EdgeFormer: Efficient Vision Transformer for Edge Devices (ECCV 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流