Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring

简介

这篇论文介绍了一种新的方法，利用多模态大型语言模型（MLLM）将临床指南（PICG）融入到MRI成像的前列腺影像报告和数据系统（PI-RADS）评分中，从而提高评分准确性。当前基于深度学习的PI-RADS评分方法常常缺乏放射科医生使用的关键PICG的融合，可能会影响评分准确性。该方法采用两个阶段的微调过程，旨在将原本针对自然图像训练的MLLM适应于MRI数据领域，并有效地整合PICG。在第一阶段，研究人员开发了一个专门为处理三维MRI图像输入而设计的领域适配器层，并设计MLLM指令以有效区分MRI模态。在第二阶段，他们将PICG翻译成为指导模型生成PICG引导图像特征的指令。通过特征蒸馏，他们将评分网络特征与PICG引导图像特征对齐，使评分网络能够有效地整合PICG信息。研究人员在公共数据集上开发了他们的模型，并在真实世界的具有挑战性的内部数据集中对其进行了评估。实验结果表明，他们的方法提高了当前评分网络的性能。
图表
解决问题

本文旨在通过将临床指南（PICG）与多模式大语言模型（MLLM）相结合，提高PI-RADS评分网络的准确性。
关键思路

本文提出了一个两阶段微调过程，旨在将原始训练在自然图像上的MLLM适应于MRI数据领域，同时有效地整合PICG。
其它亮点

本文的亮点包括开发了一个特定的领域适配器层，用于处理3D MRI图像输入，并设计了MLLM指令以有效区分MRI模态。通过特征蒸馏，将评分网络特征与PICG引导的图像特征对齐，使评分网络能够有效地整合PICG信息。实验结果表明，我们的方法提高了当前评分网络的性能。
相关研究

最近的相关研究包括使用深度学习的PI-RADS评分方法，但这些方法缺乏整合PICG的能力。

Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring

评论