Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks

简介

肺部疾病相关症状的表现因患者个体差异而异，突显了CT扫描中3D信息在医学图像分类中的重要性。虽然Vision Transformer在图像分类任务中表现优于卷积神经网络，但其有效性通常在足够大的2D数据集上得到证明，并且在小型医学图像数据集上容易遇到过拟合问题。为了解决这个限制，我们提出了一种基于扩散的3D Vision Transformer（Diff3Dformer），它利用扩散模型的潜在空间形成3D分析的切片序列，并将聚类注意力融入ViT中，以聚合3D CT扫描中的重复信息，从而利用先进的Transformer在小型数据集上进行3D分类任务。我们的方法在两个不同规模的小型3D肺部CT扫描数据集上展现出改进的性能，超过了最先进的3D方法和其他在COVID-19大流行期间出现的基于Transformer的方法，证明了其在不同数据规模下的稳健和优越性能。实验结果强调了我们提出的方法的优越性，表明其在实际场景中提高医学图像分类任务的潜力。
图表
解决问题

本论文旨在解决医学图像分类中小数据集上使用Transformer模型时容易出现过拟合问题的挑战。同时，该论文也试图探索如何在CT扫描的3D信息中利用Transformer模型进行更准确的分类。
关键思路

该论文提出了一种基于扩散模型的3D Vision Transformer（Diff3Dformer）方法，通过在ViT中引入聚类注意力机制和利用扩散模型的潜在空间形成切片序列进行3D分析，从而在小数据集上提高了Transformer模型的分类性能。
其它亮点

该论文在两个不同规模的3D肺部CT扫描数据集上进行了实验，证明了Diff3Dformer的优越性能，超过了其他3D方法和基于Transformer的方法。此外，该论文还开源了代码和数据集，为相关研究提供了参考。
相关研究

最近在医学图像分类领域，还有一些相关的研究，例如：“Attention-based Multi-Resolution Convolutional Neural Network for Medical Image Classification”和“3D Deep Learning for Efficient and Robust Landmark Detection in Volumetric Data”。

Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks

评论