SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models

简介

《放射学报告生成（R2Gen）》展示了多模态大型语言模型（MLLMs）如何自动化创建准确连贯的放射学报告。现有方法通常在基于文本的报告中产生细节幻觉，这些细节并不准确反映图像内容。为了缓解这种情况，我们引入了一种新策略，即SERPENT-VLM（使用视觉语言模型的自我精炼放射学报告生成），通过将自我精炼机制整合到MLLM框架中来改进R2Gen任务。我们采用了一种独特的自监督损失，利用汇集的图像表示和生成的放射学文本的上下文表示之间的相似性，以及标准的因果语言建模目标，来精炼图像-文本表示。这使得模型能够通过给定图像和生成的文本之间的动态交互来审查和对齐生成的文本，从而减少幻觉并不断增强细致的报告生成。SERPENT-VLM优于现有的基线模型，如LLaVA-Med、BiomedGPT等，在IU X射线和放射学对象在上下文中（ROCO）数据集上实现了SoTA性能，并且证明了对于嘈杂的图像也具有鲁棒性。定性的案例研究强调了更复杂的MLLM框架对于R2Gen的显著进展，为医学成像领域的自监督精炼进一步研究开辟了道路。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决医学成像报告中存在的文字虚构问题，提出了一种自我完善的机制，以提高多模式大型语言模型在放射学报告生成中的性能。
关键思路

论文提出了一种自我完善的机制SERPENT-VLM，通过将自我监督损失与因果语言建模目标相结合，从图像和文本的角度优化模型，以减少文字虚构问题。
其它亮点

论文使用IU X-ray和Radiology Objects in COntext（ROCO）数据集进行实验，证明了SERPENT-VLM在放射学报告生成中具有最先进的性能，并且对于噪声图像也具有鲁棒性。此外，论文还提供了开源代码。
相关研究

最近的相关研究包括LLaVA-Med、BiomedGPT等。

SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models

提问交流

提问交流