- 简介随着多模态大语言模型(MLLMs)的快速发展,特别是它们在通过参考和基础功能进行视觉聊天方面的能力,它们的重要性越来越被认识到。然而,生物医学领域目前在这个领域存在着相当大的差距,主要是由于缺乏专门针对生物医学图像的参考和基础数据集。为了解决这个挑战,我们设计了Med-GRIT-270k数据集。它包括270k个问题和答案对,并跨越了八种不同的医学成像模态。最重要的是,它是第一个专门针对生物医学领域并整合参考和基础对话的数据集。关键思想是从医学分割数据集中采样大规模的生物医学图像-掩模对,并使用chatGPT从文本生成指令数据集。此外,我们通过使用这个数据集和多任务指令学习,引入了一个专门针对生物医学领域的参考和基础多模态大语言模型(BiRD)。大量实验证实了Med-GRIT-270k数据集和BiRD模型的多模态、精细交互能力的有效性。这对于探索和开发智能生物医学助手具有重要的参考价值。
-
- 图表
- 解决问题本论文旨在填补生物医学领域中缺乏专门的refer and ground数据集的空白,提出了Med-GRIT-270k数据集和BiRD模型,以解决生物医学图像的多模态交互问题。
- 关键思路通过从医学分割数据集中采样大规模的生物医学图像-掩模对,并使用chatGPT从文本生成指令数据集,构建了Med-GRIT-270k数据集,并通过多任务学习构建了BiRD模型,从而实现了多模态的细粒度交互。
- 其它亮点Med-GRIT-270k数据集包含270k个问题-答案对,涵盖了8种不同的医学成像模式,并且是首个专门针对生物医学领域的refer and ground数据集。实验结果表明,BiRD模型具有很好的效果,这为智能生物医学助手的探索和开发提供了重要参考价值。
- 最近在这个领域中,还有一些相关研究,如:"Multimodal Medical Image Synthesis using Cross-Modal Generative Adversarial Networks"和"Multimodal Medical Image Fusion using Deep Learning Techniques"等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流