MedRG: Medical Report Grounding with Multi-modal Large Language Model

简介

本文介绍了一种新的框架——医学报告定位（MedRG），它是一种端到端的解决方案，利用多模态大型语言模型来预测关键短语，并将一个独特的标记“BOX”纳入词汇表中，作为解锁检测能力的嵌入。随后，视觉编码器-解码器共同解码隐藏的嵌入和输入的医学图像，生成相应的定位框。实验结果验证了MedRG的有效性，超过了现有最先进的医学短语定位方法的性能。这项研究代表了医学报告定位任务的开创性探索，标志着该领域的首次努力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决医学图像分析和放射学诊断中的关键短语提取问题，提出了一种新的框架MedRG。
关键思路

MedRG利用多模态大型语言模型来预测关键短语，通过引入独特的标记“BOX”作为嵌入来解锁检测能力，并使用视觉编码器-解码器共同解码隐藏嵌入和输入医学图像，生成相应的定位框。
其它亮点

实验结果表明，MedRG的有效性超过了现有的最先进的医学短语定位方法。本研究是医学报告定位任务的首次尝试。
相关研究

最近的相关研究包括“Multi-Modal Medical Concept Extraction with Limited Supervision”和“Automated Medical Report Summarization Using Deep Learning”。