Training Small Multimodal Models to Bridge Biomedical Competency Gap: A Case Study in Radiology Imaging

2024年03月12日
  • 简介
    大型基础模型的扩展规律和卓越性能推动了这些模型在生物医学领域的开发和利用。然而,尽管在一些生物医学基准测试中取得了早期的有希望的结果,但在这些模型可以应用于实际应用之前仍然存在重大挑战。像GPT-4V这样的前沿模型在生物医学应用的多模态能力方面仍然存在重大的能力差距。此外,实际问题,如访问、成本、延迟和合规性,使得临床医生难以直接在私有患者数据上使用私有托管的最先进的大型模型。在本文中,我们探讨了训练开源小型多模态模型(SMM)来弥补未满足的临床需求中的生物医学能力差距。为了最大限度地提高数据效率,我们采用了模块化方法,将图像和文本模态的最先进的预训练模型结合起来,重点是训练一个轻量级的适配器,将每个模态接地到文本嵌入空间。我们在放射学成像方面对这种方法进行了全面的研究。为了训练,我们组装了一个包含超过100万个图像-文本对的大型数据集。为了评估,我们提出了一种临床驱动的新方法,使用GPT-4进行评估,并展示了其与专家评估的相似性。我们还通过注意力定性地研究了接地。为了最佳实践,我们对数据工程和多模态训练中的各种选择进行了系统的削减研究。结果,LLaVA-Rad(7B)模型在放射学任务,如报告生成和跨模态检索方面取得了最先进的结果,甚至优于GPT-4V和Med-PaLM M(84B)等更大的模型。LLaVA-Rad快速,并且可以在单个V100 GPU上在私人设置中运行,为实际临床应用提供了一个有前途的最先进工具。
  • 图表
  • 解决问题
    本文旨在解决基于大型预训练模型在生物医学领域应用中存在的问题,如多模态能力不足、数据访问、成本、延迟和合规性等。作者提出了一种训练小型多模态模型的方法,以填补生物医学领域的竞争力差距。
  • 关键思路
    本文采用模块化方法,结合图像和文本模态的预训练模型,重点训练轻量级适配器,将每个模态与文本嵌入空间相连,从而实现最大化数据效率的训练。作者在放射学成像领域进行了全面的研究,并提出了一种基于GPT-4的新方法进行评估。
  • 其它亮点
    本文的亮点包括:采用模块化方法进行训练,提高了数据效率;提出了一种新的基于GPT-4的评估方法;提出的模型在放射学任务中取得了最先进的结果,甚至超过了比其更大的模型;该模型快速且可以在私人设置中运行。
  • 相关研究
    与本文相关的研究包括大型预训练模型在生物医学领域的应用,以及多模态模型的训练和评估方法。例如,最近的研究包括“Med-BERT: pre-trained contextualized embeddings on large-scale structured electronic health records for disease prediction”和“Multi-modal machine learning in neuroimaging: survey and challenges”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论