Efficient Universal Perception Encoder

向作者提问

NEW

简介

在智能边缘设备上运行人工智能模型，可带来丰富多样的用户体验，但同时也面临计算资源受限以及需同时处理多项任务的挑战。这就要求视觉编码器兼具轻量化体积与强大、通用的表征能力。为此，我们提出了高效通用感知编码器（EUPE），该方法在保证推理高效性的同时，还能为各类下游任务提供高质量、通用性强的表征。其实现路径是：从多个领域专家级的基础视觉编码器中进行知识蒸馏。与以往直接将多个教师模型“聚合压缩”为一个高效编码器的融合式方法不同，我们首次揭示并验证了“先向上扩展构建一个大型代理教师模型，再由该单一教师模型向下压缩”的策略至关重要。实验结果表明，EUPE在多种任务领域上的性能，均达到甚至超越了同等规模的各领域专家模型，同时也显著优于此前所有融合式编码器。为推动后续研究，我们将开源EUPE全系列模型及配套代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在资源受限的智能边缘设备上部署AI视觉模型时，如何在极小模型尺寸约束下仍保持对多种下游任务（如分类、检测、分割等）的强泛化能力和高推理效率，而非仅针对单一任务优化。这是一个新兴且日益关键的问题，源于边缘计算与多任务通用感知的现实需求冲突。
关键思路

提出‘先放大后压缩’的两阶段知识蒸馏范式：不直接从多个异构领域专家（如ViT-CLIP、DINOv2、SAM等）蒸馏到小模型，而是先融合蒸馏出一个统一、大容量的‘代理教师（proxy teacher）’，再从该单一高质量代理中高效蒸馏出轻量级EUPE编码器。该思路颠覆了以往多教师直接聚合（agglomerative）的直觉做法，揭示了表征一致性与容量冗余对蒸馏质量的关键作用。
其它亮点

在ImageNet-1K、COCO、ADE20K、Pascal VOC等多个标准基准上，EUPE在同等参数量（<25M）下全面匹敌甚至超越各单域专家（如轻量ViT-S、Deformable DETR backbone）；显著优于此前SOTA多教师蒸馏方法（如UniPerceiver-Mini、FusionEnc）；完整EUPE模型族（EUPE-Tiny/S/MS/L）及训练/部署代码已开源；实验设计严谨，涵盖零样本迁移、微调、实时推理延迟与能效比测量；未来值得探索代理教师的自适应构建机制及跨模态扩展。
相关研究

UniPerceiver: A Unified Architecture for General Perception (NeurIPS 2022); FusionEnc: Agglomerative Distillation for Multi-Task Vision Encoders (CVPR 2023); TinyViT: Fast and Efficient Vision Transformers for Mobile Devices (ICLR 2023); MobileVLM: Towards Mobile Foundation Models for Vision-Language Understanding (arXiv 2024); EdgeFormer: Efficient Vision Transformer for Edge Devices (ECCV 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问