MedRG: Medical Report Grounding with Multi-modal Large Language Model

2024年04月10日
  • 简介
    本文介绍了一种新的框架——医学报告定位(MedRG),它是一种端到端的解决方案,利用多模态大型语言模型来预测关键短语,并将一个独特的标记“BOX”纳入词汇表中,作为解锁检测能力的嵌入。随后,视觉编码器-解码器共同解码隐藏的嵌入和输入的医学图像,生成相应的定位框。实验结果验证了MedRG的有效性,超过了现有最先进的医学短语定位方法的性能。这项研究代表了医学报告定位任务的开创性探索,标志着该领域的首次努力。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决医学图像分析和放射学诊断中的关键短语提取问题,提出了一种新的框架MedRG。
  • 关键思路
    MedRG利用多模态大型语言模型来预测关键短语,通过引入独特的标记“BOX”作为嵌入来解锁检测能力,并使用视觉编码器-解码器共同解码隐藏嵌入和输入医学图像,生成相应的定位框。
  • 其它亮点
    实验结果表明,MedRG的有效性超过了现有的最先进的医学短语定位方法。本研究是医学报告定位任务的首次尝试。
  • 相关研究
    最近的相关研究包括“Multi-Modal Medical Concept Extraction with Limited Supervision”和“Automated Medical Report Summarization Using Deep Learning”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问