- 简介多模态大语言模型(MLLMs),如GPT-4V的快速发展带来了重大进展。然而,由于数据隐私问题和高昂的注释成本,这些模型在医疗多模态能力方面仍面临挑战,这导致医疗视觉文本数据的数量和质量受到限制。虽然开创性的方法利用PubMed的大规模去识别医疗图像文本对来解决这些限制,但它们仍存在数据噪声的固有问题。为了解决这个问题,我们从PubMed中提炼了医疗图像文本对,并以“非盲”方式使用MLLMs(GPT-4V)对其进行去噪和重新格式化,从而创建了PubMedVision数据集,其中包含130万个医疗VQA样本。我们的验证表明:(1)PubMedVision可以显著增强当前MLLMs的医疗多模态能力,在MMM Health&Medicine track等基准测试中显示出显着的改进;(2)医学专家的手动检查和经验结果验证了我们的数据集相对于其他数据构建方法的优越数据质量。使用PubMedVision,我们训练了一个34B的医疗MLLM HuatuoGPT-Vision,在开源MLLMs中,在医疗多模态场景中显示出卓越的性能。
- 图表
- 解决问题本论文旨在解决医学多模态大语言模型(MLLMs)在医学视觉文本数据方面的限制问题,提出了一种新的数据构建方法。
- 关键思路通过从PubMed中精细筛选医学图像-文本对,并利用MLLMs(GPT-4V)进行去噪和重新格式化,创建了PubMedVision数据集,用于训练在医学多模态场景中表现优秀的34B医学MLLM HuatuoGPT-Vision。
- 其它亮点本论文的亮点包括:通过创新的数据构建方法提高了医学MLLMs的性能,创建了一个包含1.3百万医学VQA样本的新数据集PubMedVision;在MMMU Health & Medicine track中取得了显著的改进;通过医学专家的手动检查和经验结果验证了数据集的优越性。
- 最近的相关研究包括利用PubMed数据进行医学图像-文本配对的探索,以及使用MLLMs解决医学自然语言处理任务的研究。
沙发等你来抢
去评论
评论
沙发等你来抢