A Refer-and-Ground Multimodal Large Language Model for Biomedicine

向作者提问

NEW

简介

随着多模态大语言模型（MLLMs）的快速发展，特别是它们在通过参考和基础功能进行视觉聊天方面的能力，它们的重要性越来越被认识到。然而，生物医学领域目前在这个领域存在着相当大的差距，主要是由于缺乏专门针对生物医学图像的参考和基础数据集。为了解决这个挑战，我们设计了Med-GRIT-270k数据集。它包括270k个问题和答案对，并跨越了八种不同的医学成像模态。最重要的是，它是第一个专门针对生物医学领域并整合参考和基础对话的数据集。关键思想是从医学分割数据集中采样大规模的生物医学图像-掩模对，并使用chatGPT从文本生成指令数据集。此外，我们通过使用这个数据集和多任务指令学习，引入了一个专门针对生物医学领域的参考和基础多模态大语言模型（BiRD）。大量实验证实了Med-GRIT-270k数据集和BiRD模型的多模态、精细交互能力的有效性。这对于探索和开发智能生物医学助手具有重要的参考价值。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在填补生物医学领域中缺乏专门的refer and ground数据集的空白，提出了Med-GRIT-270k数据集和BiRD模型，以解决生物医学图像的多模态交互问题。
关键思路

通过从医学分割数据集中采样大规模的生物医学图像-掩模对，并使用chatGPT从文本生成指令数据集，构建了Med-GRIT-270k数据集，并通过多任务学习构建了BiRD模型，从而实现了多模态的细粒度交互。
其它亮点

Med-GRIT-270k数据集包含270k个问题-答案对，涵盖了8种不同的医学成像模式，并且是首个专门针对生物医学领域的refer and ground数据集。实验结果表明，BiRD模型具有很好的效果，这为智能生物医学助手的探索和开发提供了重要参考价值。
相关研究

最近在这个领域中，还有一些相关研究，如："Multimodal Medical Image Synthesis using Cross-Modal Generative Adversarial Networks"和"Multimodal Medical Image Fusion using Deep Learning Techniques"等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问