AMoE: Agglomerative Mixture-of-Experts Vision Foundation Model

向作者提问

NEW

简介

通过多教师蒸馏训练的视觉基础模型为实现统一的视觉表征提供了一条颇具前景的路径，然而这类方法的学习动态特性和数据利用效率仍缺乏深入探索。本文系统性地研究了面向视觉基础模型的多教师蒸馏方法，并识别出若干关键因素，使得在较低计算成本下进行有效训练成为可能。我们提出了聚合式混合专家视觉基础模型（Agglomerative Mixture-of-Experts Vision Foundation Models, AMoE），该模型能够同时从SigLIP2和DINOv3中提取知识，并将其蒸馏至一个混合专家结构的学生模型中。我们发现：（1）所提出的非对称关系-知识蒸馏损失函数（Asymmetric Relation-Knowledge Distillation loss）能够在保持每位教师模型几何特性的同时，实现高效的知识迁移；（2）采用令牌均衡的批处理策略，将不同分辨率的图像打包成具有统一令牌预算的序列，可在不牺牲性能的前提下，稳定跨分辨率的表征学习过程；（3）对训练数据进行分层聚类与采样——这一策略以往通常用于自监督学习——相较于随机采样，能显著提升多教师蒸馏中的样本利用效率。结合上述发现，我们构建了OpenLVD200M，一个包含2亿图像的数据集，其在多教师蒸馏任务中展现出卓越的效率优势。该数据集已应用于混合专家模型的实例化训练。我们同时公开发布OpenLVD200M数据集及蒸馏所得模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决多教师蒸馏在视觉基础模型中的学习动态和数据效率问题。当前，尽管多教师蒸馏被认为是有潜力构建统一视觉表示的方法，但其训练成本高、对数据采样不敏感、跨分辨率表示不稳定等问题尚未被系统研究。这并非一个全新问题，但针对视觉基础模型的高效多教师知识整合仍属前沿探索。
关键思路

提出Agglomerative Mixture-of-Experts Vision Foundation Models (AMoE)，通过同时蒸馏SigLIP2和DINOv3的知识来构建更高效的视觉模型。关键创新包括：(1) 提出非对称关系知识蒸馏损失（Asymmetric Relation-Knowledge Distillation loss），保留各教师模型的几何特性并实现有效知识迁移；(2) 引入token-balanced batching策略，使不同分辨率图像在token预算一致的情况下进行批处理，提升多尺度表示稳定性；(3) 应用分层聚类与采样方法提高样本效率，显著优于传统随机采样。
其它亮点

实验设计系统地验证了上述三种技术对模型性能和训练效率的影响。作者构建并发布了OpenLVD200M——一个包含2亿图像的高质量数据集，专为多教师蒸馏优化，展现出更高的训练效率。模型基于MoE架构实现，支持可扩展性与稀疏激活。代码、数据集及蒸馏后的模型均已开源，极大促进后续研究。值得深入的方向包括将分层采样策略推广至其他蒸馏场景，以及探索更多教师模型组合下的知识融合机制。
相关研究

1. “BeIT v3: Large-scale Training for Visual Representation Learning with Multi-Teacher Distillation” 2. “FLAME: Tackling Data Scarcity in Vision with Fused Large-Scale Multi-Modal Pretraining” 3. “TokenShift: Token-Based Adaptive Computation for Efficient Vision Transformers” 4. “Mixture of Experts Meets Video Foundation Models” 5. “DINOv3: Scaling Self-Supervised Learning for High-Resolution Vision”

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问