Dia-LLaMA: Towards Large Language Model-driven CT Report Generation

2024年03月25日
  • 简介
    医疗报告生成已经取得了显著的进展,但仍面临几个挑战。首先,正常和异常情况的分布固有的不平衡可能导致模型对正常样本产生偏差,从而导致不可靠的诊断结果。其次,报告中常见的模板句子可能会掩盖关键的异常信息。此外,现有的工作集中在2D胸部X光片上,由于CT图像的高维特性和CT-报告对的有限可用性,CT报告生成的研究尚未得到充分探索。最近,LLM已经展示了在适当提示下生成可靠答案的能力,为解决上述挑战提供了启示。在本文中,我们提出了Dia-LLaMA,这是一个框架,通过将诊断信息作为指导提示,将LLaMA2-7B适应于CT报告生成。考虑到CT的高维特性,我们利用预训练的ViT3D和感知器来提取视觉信息。为了定制LLM以进行报告生成并强调异常情况,我们通过参考疾病原型记忆库提取额外的诊断信息,该记忆库在训练期间进行更新以捕捉常见的疾病表示。此外,我们引入了疾病感知注意力,使模型能够针对不同的疾病调整注意力。在胸部CT数据集上的实验表明,我们提出的方法优于以前的方法,并在临床有效性性能和自然语言生成度量方面实现了最先进的水平。代码将公开发布。
  • 图表
  • 解决问题
    本文旨在解决CT报告生成中存在的样本分布不均衡、常见模板句子过多以及高维CT图像等挑战。同时,本文试图通过引入诊断信息作为提示来改进LLM模型,以便更好地生成CT报告。
  • 关键思路
    本文提出了Dia-LLaMA框架,该框架结合了ViT3D和Perceiver来提取高维CT图像的视觉信息,并利用疾病原型记忆库来提取额外的诊断信息,以便更好地生成CT报告。此外,本文还引入了疾病感知的注意力机制,以便模型能够针对不同的疾病进行注意力调整。
  • 其它亮点
    本文在胸部CT数据集上进行了实验,结果表明,Dia-LLaMA框架在临床有效性性能和自然语言生成指标方面均优于先前的方法,并取得了最先进的性能。此外,本文还承诺将代码公开。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Pathological Brain Detection in CT Scans Using Convolutional Neural Network》、《Multi-Modal Medical Image Fusion Using Deep Learning: A Review》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论