- 简介多模态大语言模型(MLLMs)在跨多个领域的视觉-语言任务中展示了令人印象深刻的表现。然而,大规模模型及其相关的高计算成本给在消费级GPU或边缘设备上训练和部署MLLMs带来了重大挑战,从而阻碍了它们的广泛应用。在这项工作中,我们介绍了Mini-InternVL,这是一系列参数量从10亿到40亿不等的MLLMs,其性能达到了原模型的90%,但参数量仅为原模型的5%。这一显著的效率和效果提升使我们的模型在各种现实场景中更加易用和适用。为了进一步推动我们的模型的应用,我们开发了一个统一的适应框架,该框架使我们的模型能够在下游任务中转移并超越专业模型,包括自动驾驶、医学图像和遥感等领域。我们认为,我们的研究可以为高效且有效的MLLMs的发展提供宝贵的见解和资源。代码可在https://github.com/OpenGVLab/InternVL 获取。
- 图表
- 解决问题该论文旨在解决多模态大语言模型(MLLMs)在训练和部署过程中面临的计算成本高和资源消耗大的问题,尤其是在消费级GPU或边缘设备上的应用受限问题。
- 关键思路论文提出了Mini-InternVL系列模型,参数规模从1B到4B不等,能够在保持90%性能的同时,仅使用5%的参数量。这一方法显著提高了模型的效率和适用性,使得多模态大语言模型能够更广泛地应用于实际场景。
- 其它亮点论文不仅开发了高效的Mini-InternVL模型,还提出了一种统一的适应框架,使这些模型能够在多个下游任务中超越专门化模型,包括自动驾驶、医学图像和遥感等领域。此外,论文提供了开源代码,便于社区进一步研究和应用。
- 近年来,多模态大语言模型的研究取得了显著进展,例如CLIP、ViLT和M6等。这些模型在视觉-语言任务上表现出色,但通常需要大量的计算资源。Mini-InternVL的提出为高效多模态模型的发展提供了新的思路。相关研究包括: - Radford, A., et al. (2021). "Learning Transferable Visual Models From Natural Language Supervision." ICML 2021. - Su, Y., et al. (2021). "ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision." NeurIPS 2021. - Zhou, H., et al. (2022). "M6: A Large-Scale Pre-trained Model for Multi-modal Understanding and Generation." arXiv preprint arXiv:2201.04529.
沙发等你来抢
去评论
评论
沙发等你来抢