- 简介我们提出了VoxelPrompt,这是一个基于代理的视觉语言框架,通过自然语言、图像体积和分析指标的联合建模来解决多样化的放射学任务。VoxelPrompt是多模态和多功能的,利用语言交互的灵活性,同时提供定量基础的图像分析。给定多个3D医学图像体积,如MRI和CT扫描,VoxelPrompt采用一个语言代理,迭代地预测可执行的指令来解决由输入提示指定的任务。这些指令与视觉网络通信,以编码图像特征并生成体积输出(例如分割)。VoxelPrompt解释中间指令的结果并计划进一步操作来计算离散的测量值(例如一系列扫描中的肿瘤增长),并向用户呈现相关输出。我们在多样化的神经影像任务的沙箱中评估了这个框架,并展示了单个VoxelPrompt模型可以描绘数百个解剖和病理特征,测量许多复杂的形态学特性,并对病变特征进行开放式语言分析。VoxelPrompt实现了这些目标,其准确性类似于针对分割和视觉问答进行微调的单任务模型,同时还支持更广泛的任务。因此,通过支持语言交互的准确图像处理,VoxelPrompt为许多传统上需要专门模型来解决的成像任务提供了全面的实用性。
- 图表
- 解决问题本文旨在通过联合建模自然语言、图像体积和分析度量来解决多样化的放射学任务,提出了一种基于代理的视觉语言框架VoxelPrompt。是否是一个新问题尚不确定。
- 关键思路VoxelPrompt采用语言代理,通过迭代预测可执行指令来解决由输入提示指定的任务。这些指令与视觉网络通信,编码图像特征并生成体积输出(例如分割)。VoxelPrompt解释中间指令的结果并计划进一步操作以计算离散度量并向用户呈现相关输出。
- 其它亮点VoxelPrompt框架在多样化的神经影像任务中进行了评估,能够准确地描绘数百个解剖和病理特征,测量许多复杂的形态特征,并对病变特征进行开放语言分析。VoxelPrompt能够以类似于精细调整的单任务模型进行分割和视觉问答的准确性,同时提供更广泛的任务范围。
- 在这个领域中,最近的相关研究包括:End-to-End Learning of Brain Tumor Segmentation with Neural Networks、Deep Learning for Brain MRI Segmentation: State of the Art and Future Directions、A survey on deep learning in medical image analysis等。
沙发等你来抢
去评论
评论
沙发等你来抢