Active Data Curation Effectively Distills Large-Scale Multimodal Models

2024年11月27日
  • 简介
    知识蒸馏(KD)是将大规模模型压缩为较小模型的事实标准。先前的研究探索了越来越复杂的KD策略,涉及不同的目标函数、教师集合和权重继承。在这项工作中,我们探讨了一种替代但简单的方法——主动数据策展作为对比多模态预训练的有效蒸馏。我们的简单在线批次选择方法ACID,在各种模型、数据和计算配置中均优于强大的KD基线。此外,我们发现这种主动数据策展策略实际上与标准的KD互补,可以有效结合以训练高性能的推理高效模型。我们提出的简单且可扩展的预训练框架ACED,在27个零样本分类和检索任务中取得了最先进的结果,同时减少了高达11%的推理浮点运算次数。我们进一步证明,ACED模型在LiT-Decoder设置下训练生成式多模态模型时,能够提供强大的视觉编码器,在图像描述和视觉问答任务中超越了更大的视觉编码器。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决如何有效地压缩大规模模型以提高推理效率的问题。尽管知识蒸馏(KD)是目前的标准方法,但本文提出了一种新的方法——通过主动数据策展来实现对比多模态预训练的有效压缩。这是一个在现有知识蒸馏基础上的新尝试。
  • 关键思路
    论文的关键思路是引入了一种简单的在线批次选择方法,称为ACID(Active Curation for Inference Distillation),用于对比多模态预训练。这种方法不仅能够独立于传统的知识蒸馏技术取得更好的性能,还能与之结合使用,进一步提升模型的性能和推理效率。这一思路创新之处在于将数据选择策略与模型压缩相结合,提供了一种简单而有效的解决方案。
  • 其它亮点
    论文的主要亮点包括:1) ACID方法在多种模型、数据和计算配置下均优于现有的知识蒸馏基线;2) 该方法与标准的知识蒸馏技术互补,可以联合使用以训练高性能且推理高效的模型;3) 提出的ACED框架在27个零样本分类和检索任务上取得了最先进的结果,并且减少了高达11%的推理FLOPs;4) ACED模型作为视觉编码器,在生成多模态模型的LiT-Decoder设置中表现出色,超过了更大的视觉编码器。此外,论文提供了详细的实验设计和数据集信息,代码已开源,便于后续研究。
  • 相关研究
    近期在多模态预训练和模型压缩领域的一些相关研究包括:1)《Distilling Knowledge in a Neural Network》——Hinton等人提出的知识蒸馏技术;2)《Contrastive Learning of Visual Representations》——He等人提出的对比学习方法;3)《Multimodal Contrastive Pre-training for Vision-and-Language Tasks》——Lu等人提出的多模态对比预训练方法。这些研究为本文的方法提供了理论基础和技术支持。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问