Efficient Multimodal Large Language Models: A Survey

2024年05月17日
  • 简介
    过去一年,多模态大型语言模型(MLLMs)在视觉问答、视觉理解和推理等任务中表现出了非凡的性能。然而,庞大的模型尺寸和高昂的训练和推理成本阻碍了MLLMs在学术界和工业界的广泛应用。因此,研究高效轻量级的MLLMs具有巨大的潜力,尤其是在边缘计算场景中。在本次调查中,我们全面系统地回顾了当前高效MLLMs的研究现状。具体来说,我们总结了代表性高效MLLMs的时间线、高效结构和策略的研究现状以及应用场景。最后,我们讨论了当前高效MLLM研究的局限性和未来发展方向。更多详情请参阅我们的GitHub存储库:https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。
  • 图表
  • 解决问题
    研究如何构建高效的多模态大语言模型(MLLMs),以解决模型规模大、训练和推理成本高的问题,以促进MLLMs在学术界和工业界的广泛应用。
  • 关键思路
    论文系统地回顾了当前高效MLLMs的研究现状,总结了代表性的高效MLLMs的时间线、结构和策略,并探讨了其应用和未来发展方向。
  • 其它亮点
    论文提供了一个全面的高效MLLMs的研究现状,包括时间线、结构和策略,以及应用和未来发展方向。实验中使用了多个数据集,并提供了开源代码。值得关注的是,论文还探讨了当前高效MLLMs研究的局限性和未来发展方向。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Efficient Transformers: A Survey》、《MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices》、《TinyBERT: Distilling BERT for Natural Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论