UNet也要跨越2023 | UNet Bridging the Gap，广泛接触+局部微调，让UNet无所畏惧！

点击下方卡片，关注「AI视界引擎」公众号

肿瘤分割模型的一个关键挑战是能够适应各种临床环境，特别是在应用到 poor 质量的神经影像数据时。围绕这种适应性的不确定性源于缺乏代表性的数据集，导致在 Sub-Saharan Africa (SSA) 地区常见于 MRI 数据中的常见伪影的顶级性能模型没有暴露。

作者复制了一个在 2022 年 BraTS 竞赛中获得第二名的框架，以研究数据集组成对模型性能的影响，并通过使用 BraTS-Africa 数据只训练模型（train_SSA，N=60），仅使用 BraTS-成人胶质瘤数据（train_GLI，N=1251），将两者都在一起训练（train_ALL，N=1311），以及使用 BraTS-Africa 数据进一步训练 train_GLI 模型（train_ftSSA）。值得注意的是，仅在较小的低质量数据集上训练（train_SSA）得到的结果不佳，而在仅在较大的高质量数据集上训练（train_GLI）在低质量验证集上难以区分水肿组织。最具有前景的方法（train_ftSSA）是先在高质量神经影像上预训练模型，然后在较小的低质量数据集上进行微调。

这种方法超过了其他方法，在 MICCAI BraTS Africa 全球挑战外部测试阶段排名第二。这些发现强调了改进分割性能的重要性，即更大的样本量和广泛的数据接触。此外，证明了通过使用更广泛的数据进行局部微调，可以改善此类模型的性能。

Introduction

癌症的负担逐年上升，这主要影响低收入和中等收入国家（LMICs），因为这些国家在影像技术以及专家方面的限制，这对于早期诊断和成功治疗至关重要。准确的肿瘤分割为治疗决策提供了重要信息，从而影响了患者的生存率。在颅内肿瘤中，胶质瘤具有高度异质性，尽管在神经肿瘤领域取得了相当大的进展，但预后仍然较差。胶质瘤的形状、大小、边界、强度分布和体积波动都为使用磁共振成像（MRI）进行精确分割带来了挑战。MRI 是脑肿瘤的标准治疗和首选成像模式。

尽管它具有优势，但在低资源环境中仍需解决各种挑战，特别是在撒哈拉以南非洲（SSA）等地区，例如，缺乏高场磁共振扫描仪的可用性以及获取、分析和解释 MRI 数据的合格专家短缺，这导致肿瘤诊断的延迟。此外，由于 SSA 的相对较差的医疗保健系统、社会经济地位以及疾病通常在 SSA 中的晚发性，这进一步恶化了预后并维持了 SSA 的高死亡率。这些因素继续推动颅内肿瘤早期诊断和及时干预的需求。因此，开发能够在各种临床设置上表现良好的精确自动脑肿瘤分割模型在全球范围内具有重要意义。

近年来，脑肿瘤分割领域有了很大的发展，旨在克服依赖领域专业知识、主观性、对噪声和强度非均匀性的敏感性等限制。机器学习技术，特别是深度学习，在这个领域处于前沿，在肿瘤组织、周围水肿和正常组织之间的分割精度方面取得了显著的改进。卷积神经网络（CNNs）和自动编码器的结合是目前最好的方法，已经逐渐减少了依赖领域专业知识和复杂特征提取方法。

具体来说，U-Net模型在自动化脑肿瘤分割任务中已经确立了自己作为黄金标准的地位。为了进一步提高效率、准确性和普遍性，已经提出了几种对U-Net的改进。然而，由于医疗领域的伦理问题和数据隐私规定，用于深度学习模型泛化的神经影像数据集是有限的。

自从 BraTS 挑战赛成立以来，已经从多参数（mp-）MRI 扫描的全球贡献中观察到了显著的脑患者数据增长，其中包含约 4,500 例标注的公开可用脑肿瘤数据集。通过这种合作开发的标准化的自动脑肿瘤分割基准，已经显著推动了该领域的创新架构和训练程序的发展。然而，尽管表现出色，但仍然不确定这些顶级表现的方法是否可以有效地应用于来自撒哈拉以南非洲（SSA）人群的数据，因为这些人群的 MRI 图像质量仍然较差。这主要是由于缺乏代表性的数据集，再加上不同设置之间的图像获取参数的巨大差异，这使得泛化面临着挑战。当前的基准主要是基于高分辨率脑 MRI 在高收入国家的标准资源丰富的临床设置中获得的，并包括图像预处理步骤，这些步骤可能不会让模型暴露于 SSA 常见于常规临床扫描中的伪影。

当前最先进的框架之一是由 Isensee 等人开发的 nn-UNet，它提供了一个强大的肿瘤分割流水线，能够适应各种成像模式和结构 [28]。该框架通过将不同 U-Net 基于架构的预测进行集成，强调了建模决策的重要性，如预处理、数据增强流水线和超参数调优方法。Zeineldin 等人最近表明，对来自撒哈拉以南非洲（SSA）的较小外部测试数据集的期望-最大化集成的 DeepSeg、nn-UNet 和 Deep-SCAN U-Net Pipeline 表现良好；对于整个肿瘤（WT）、肿瘤核心（TC）和增强肿瘤（ET），分别实现了 Dice 分数系数（DSC）0.9737、0.9593 和 0.9022，以及 Hausdorff 距离（95%）(HD95) 分数低于 3.32 的所有子区域。

然而，在具有与训练数据相似特性的外部数据集上的测试并未表现出色，它们的集成方法与 nn-UNet 基础模型的独立运行之间的验证结果差异微小（~0.005，U=6.0，p=0.7）。这可能进一步强调，在模型训练期间增加相关数据表示的简单框架，以及更激进的数据增强和精心选择的后处理方法，可能有助于在各种数据集上实现相似性能的模型开发，并可立即在低资源环境中应用。其中，增加模型训练期间相关数据表示尤为重要。

今年，首次将 BraTS 挑战扩展到包括来自低资源设置的多模态 MRI 训练数据。在这项工作中，作者研究了已经建立的 U-Net 肿瘤分割框架在训练来自低资源设置的 MRI 数据以及将其推广到较低分辨率和数据质量方面的能力，并探讨了在资源有限的情况下实现这些框架的可行性。鉴于挑战的目标是创建一个多功能的基准模型，作者优先考虑与顶级表现方法建立可比指标作为参考，而不是引入复杂的增强。作者的策略是复制一个 BraTS 挑战基准模型，以研究仅包含低分辨率数据的外部数据集的分割预测受到训练数据组成的影响。

Methods

Data Description

本研究中使用的数据集来源于 BraTS 2023 挑战赛的数据。训练、验证和测试数据集包括来自 1565 名术前成人胶质瘤患者的 mp-MRI 扫描，其中 1470 例来自现有的 BraTS 数据（BraTS-Adult Glioma），如前文所述，另外 95 例来自撒哈拉以南非洲（SSA）（BraTS-Africa）。这些是作为标准护理的一部分在各种机构获得的典型临床扫描，导致成像质量存在显著差异。每个病例包括 T1 加权（T1）、术后钆对比 T1 加权（T1Gd）、T2 加权（T2）和 T2 液体衰减反转恢复（T2-FLAIR）。

图 1 显示了来自每个数据集的患者的样本切片，强调 BraTS-Adult Glioma 和 BraTS-Africa 之间的数据质量的巨大差异。BraTS-Africa 数据集是通过一个非洲成像中心网络收集的，得到了非洲 MRI 教育和研究推进联盟（CAMERA）的支持和 Lacuna 基金在健康公平性方面的资金。在每个病例中，基于图像的肿瘤子区域的真实标注通过迭代过程生成和批准。

通过志愿者手动审核、2 名专家放射科医生和最终由专家神经放射科医生批准发布。这些肿瘤子区域是放射学特征，并不反映严格的生物学实体 [11, 25]，包括增强肿瘤（ET; 标签 3）、肿瘤周围的肿胀组织（ED; 标签 2）和坏死核心（NCR; 标签 1），而未标注的 Voxel 被视为背景（标签 0）。

Selecting a Framework

自 nn-UNet Pipeline 开发以来，它已经经历了几次修订，主要集中在训练参数上，而不是架构本身。表 1（行 1-3）显示了 2017 年原始 nn-UNet 模型以及 Isensee 等人随后的 BraTS 挑战中提交的修订模型，其中它在 2018 年获得第二名，在 2020 年获得第一名。nn-UNet 有效地解决了在设计更改和选择最佳表现集成时手动考虑相互依赖性的挑战。

然而，参加 2021 年 BraTS 挑战的一些团队表明，nn-UNet Pipeline 中的基本 3D U-Net 组件可以优化以在脑肿瘤分割任务上获得良好性能，而不需要运行涵盖 nn-UNet Pipeline 的整个网络集成。这些团队的比较结果（见表 1，第 4-7 行显示外部验证结果）主要表明，当样本数量保持不变时，整体模型性能存在轻微差异。与使用不同较小样本大小训练的三个 nn-UNet 提交结果的多样性能相比，这可能进一步强调了用于训练分割模型的样本大小的重要性以及其对模型性能的影响。

在选择时，作者考虑了简单性和有效性，因为在资源有限的环境中更容易进行复制，对长期将模型本地化到资源受限的环境更有益。除了样本大小外，Futrega 等人表明，改变网络架构对整体肿瘤分割性能的影响很小。具体来说，他们表明，改变网络层（例如，残差连接、多头自注意力）或集成不同的架构（例如，具有自编码器或基本 U-Net 的残差 U-Net 与视觉 Transformer ）与基本 3D U-Net 架构（子区域平均 Dice 分数约为 0.002）相比仍然具有可比性。

这一支持来自于 [31] 和 [36] 中集成模型的比较，它们在 nn-UNet 组件和集成结果之间没有显著差异（）。因此，作者选择实现 Futrega 等人从 2022 年 BraTS 挑战中提出的框架，并参考他们的原始论文 [35] 和最近发布的论文 [37]，该论文详细介绍了该框架的完整 Pipeline 。

Data Pre-Processing

所有数据都在挑战组织者的初始预处理后提供，以确保在公共数据共享之前删除所有受保护的健康信息。BraTS 标准化的流水线详细描述在 [3, 25] 中使用，预处理步骤包括将 DICOM 文件转换为 NifTI 格式，以删除所有个人患者元数据；去头骨，以毁损神经影像扫描；与 SRI24 解剖模板进行配准；

最后，重采样到统一的 1mm3 等向同性分辨率（见 [11] 中的内容）。然后，作者按照 OptiNet 流水线的描述执行了几个额外的预处理步骤。这些步骤包括：将所有模态的体积堆叠；裁剪冗余背景 Voxel ，以减少计算成本；对非零区域进行归一化；并添加一个前景的 one-hot 编码通道，以区分肿瘤和非肿瘤区域。这最终得到了一个形状为 (5, 240, 240, 155) 的输入张量，其中通道分别表示 4 个模态和 one-hot 编码层。

OptiNet Pipeline and Experiments

OptiNet 主要调整 nn-UNet 框架，涉及与数据预处理相关的建模选择，实现的数据增强，应用的损失函数（区域性，累加二进制交叉熵和 Dice 损失），以及几个后处理步骤。应用的数据增强包括空间变换（大小为 128x128x128 的随机裁剪和随机翻转）和与强度相关的变换（高斯噪声、高斯模糊、亮度变化），并在训练期间实现。

Yousef 等人 [38] 提供了关于基本 U-Net 架构的详细综述：简而言之，它由一个标准的 CNN（卷积神经网络）的收缩（编码器）路径和一个结合了卷积层特征图和三线性插值上采样器的解码器路径组成，用于降采样和上采样。在 OptiNet 版本中，编码器由一个标准的 CNN 组成，与一个结合了卷积层特征图和三线性插值上采样器的解码器相结合。裁剪后的体积大小为 128x128x128，同时保留上下文，通过跳过连接在编码器和解码器之间减少信息损失，帮助解码器恢复图像分辨率和空间结构。

图 2 显示了作者在实验中使用的模型架构，根据提供的公开笔记本 [4] 复制。Futrega 等人 [37] 对 nn-UNet 默认的 UNet 架构进行了轻微的修改（例如，通道大小，上采样技术等）。Futrega 和同事在 2021 年 [35] 和 2022 年 [37] 的论文中详细介绍了他们探索的所有架构和非架构调整。

值得注意的是，他们发现结合其中一些变化与附加的 one-hot 编码通道（约 0.0026，p=0.5；见 [35] 中的表 3）只会稍微增加平均 Dice 分数。

作者进行了四项实验，使用 OptiNet 流水线并改变训练数据集的组成。作者用 1）仅使用 BraTS-Africa 数据进行训练（_train_SSA_，N=60），2）仅使用 BraTS-成人胶质瘤数据进行训练（_train_GLI_，N=1251），3）同时使用两者进行训练（_train_ALL_，N=1311），4）进一步使用 BraTS-Africa 数据训练 train_GLI 模型（_train_figSSA_）。_train_figSSA_ 模型用于估计在非洲局部微调预训练基准模型的可行性。所有训练和验证都在 Compute Canada 提供的高性能计算集群上使用 Pytorch 1.9 进行的，集群上有一台 NVIDIA T4 Turing（16GB GDDR6 内存）或 NVIDIA V100 Volta（16GB/32GB HBM2 内存）显卡，根据集群上的可用性而定。

所有训练都使用内部验证程序，使用训练数据集的划分。由于时间和计算限制，作者将包含更大 BraTS-成人胶质瘤数据集的模型在每轮上分别训练 100 遍。对于仅包含较小 BraTS-Africa 数据集的模型（_train_SSA_ 和 _train_figSSA_），训练设置为最大 150 轮/轮，采用 5 倍交叉验证和当内部验证 Dice 分数在 100 轮内没有改善时采用的早期停止策略。表 2 显示了每轮训练中获得的平均 Dice 分数。每个实验的外部验证预测使用了每个轮内部验证集上的最佳 Dice 分数。

3 Results

以下是针对每个训练变体的性能指标描述，通过挑战在线评估系统计算的验证分数。系统提供的指标（见表 3）是病灶相关的 Dice 分数系数（DSC）和 Hausdorff 距离（95%）（HD95）平均值，跨 15 个用于 BraTS-Africa 2023 验证阶段的患者样本。没有提供真实分割；然而，数据集的较小尺寸允许对所有验证主题生成的分割掩膜进行更详细的审查。本文中呈现的图像是作者模型在选定验证案例上生成的分割。所有分割都由如前述描述的用于标注的非生物标签表示，其中 ED 是绿色，ET 是蓝色，NCR 是红色。

正如预期，仅用 60 个样本训练模型(train_SSA)是不够的，大多数验证分割都是在机会水平上获得的（50%）。为了在类似的数据上提供性能估计以及与其他训练集组成的比较，提交了仅用一次折叠训练 100 个 epoch 的低分辨率 Naive train_GLI 模型进行验证，该模型在包含 219 个胶质瘤患者的 Task 1（BraTS-成人胶质瘤）和 Task 2（BraTS-非洲）验证数据集上表现相对良好（平均 Dice 分数分别为 79.81、82.12、78.48 和 54.04、28.80、42.90，对应 WT、TC 和 ET 的 HD95）。

在 Task 2 验证数据上，肿瘤子区域平均性能指标也很好。由于计划将其用作使用 SSA 数据进一步训练的前训练基础，并检查内部验证损失表明其正在稳定，作者认为该模型足够用于后续使用 BraTS-Africa 数据进行微调。使用 BraTS-成人胶质瘤数据与 BraTS-非洲数据在 5 倍训练过程中进行微调，导致子区域上的平均 Dice 分数相似。

进一步研究子区域性能显示，尽管具有相同的平均 DSC，但 train_GLI 和 train_fISSA 模型在不同子区域上的表现有所不同。_train_GLI_ 模型在区分肿瘤组织和非肿瘤组织方面存在困难，40% 的案例实现了低于机会 DSC。相反，_train_fISSA_ 模型在这个区域表现良好，但在 ET 区域上存在困难，26% 的受试者得分低于机会。ET 子区域通常是最难精确分割的，因为其大小和与周围子区域的重叠。HD95 也提供了更清晰的指示，以评估模型在小型或低质量分割和轮廓重要时的性能。

查看这些分数的差异，作者看到 train_fISSA 模型平均能够比 train_GLI 模型更好地预测整个肿瘤边界（HD95 约 63 个单位较低）。相反，_train_GLI_ 模型在平均上比 train_fISSA 模型更好地区分 ET 子区域（HD95 约 40 个单位较低）。图 3 显示了这些差异明显的情况。

确定了一个异常案例，其中所有模型在准确分割 TC 子区域（平均 DSC 范围 22.33-49.04）方面存在困难，这可能是因为在脑水肿组织中存在类似于 ET 和 TC 的像素强度，这些像素强度存在于脑皮质的后部区域。这个案例对 train_fISSA 的影响大于其他模型：去除这个异常案例后，ET 和 TC 子区域的 DSC 分别增加了 4.13 和 3.43（相应的 HD95 分别降低了 13.04 和 8.04）。此外，这个异常案例还展示了 train_SSA 和 train_ALL 模型在 ET 和 TC 子区域性能的改善，尽管与 train_fISSA 相比较弱。

表 4 显示了平均 DSC 和 HD95 分数的完整差异比较。只有 train_GLI 模型在 TC 子区域受到了影响。此外，一个案例始终在所有模型上实现极其糟糕的分割结果，平均 DSC 跨子区域范围 35.40-37.02，HD95 229.37-229.89，如图 4 所示。

图 5 显示了一个在 ET 和 TC 分割上获得了极好分数（平均 DSC > 89，HD95 < 2.00）但 WT 区域没有很好分割的受试者。传统上，ET 区域的准确分割更具挑战性，因为它通常是一个较小的区域。整个肿瘤本身应该更容易识别。图 5 中，从左到右，每个模型在所示面板的 ET 和 TC 分割上的平均 DSC（HD95）分别为：72.22（9.273）、0.125（285.335）、41.33（190.082）和 89.49（1.414）。从视觉上看，大多数模型主要在区分水肿组织（ED）方面存在困难，而水肿组织非常少。

在回顾所有模型性能时，作者还考虑到了整个肿瘤包含水肿组织，这在低分辨率扫描中更难区分。没有暴露于 SSA 的低质量数据，_train_GLI_ 模型可能很难精确识别伴有广泛水肿的肿瘤的边界。因此，作者将预训练了更大 BraTS-成人胶质瘤数据集并进一步在较小的 SSA 数据集（_train_ftsSA_）上训练的模型提交了外部测试数据集，该数据集包括来自 SSA 的 20 名患者的扫描。在这个未见过的外部测试数据集上，该模型表现良好，在全球范围内排名第二。在撰写本文时，测试阶段获得的最终 DSC 和 HD95 分数尚未公开。

4 Discussion

综上所述，作者的实验结果强调，当前最先进的模型不能直接应用于 SSA 数据，因为可用的训练数据有限，会导致模型过拟合。作者的最终模型在单预训练 100 个 epoch 和 5 倍交叉验证的微调上表现出色。然而，Futrega 等人表明，10 倍交叉验证允许实现更准确的分割性能。作者只验证了 train_SSA 和 train_ftsSA 的 5 倍交叉验证，并在 train_ALL 和 train_GLI 模型上未进行交叉验证。因此，更广泛的交叉验证可能产生更准确的模型比较。

然而，作者的最终模型的高排名性能重申了以前在模拟案例中表明的内容：通过联邦学习，最先进的模型可以通过使用来自不同区域的大量数据进行改进，这使得低资源设置的机构可以在不从外部来源获取数据的情况下，在较小的本地数据集上重新训练。然而，这些结果需要谨慎解释，因为训练和验证数据集的样本量有限。

此外，未来的工作应包括集成来自非洲不同区域的更广泛的数据集，并在使用高质量 MRI 扫描进行训练时，实施与扫描器伪影相关的更强大的数据增强。这些步骤对于开发能够跨各种临床设置看到的图像质量进行泛化的模型至关重要。

参考

[1]. Bridging the Gap: Generalising State-of-the-Art U-Net Models to Sub-Saharan African Populations

点击上方卡片，关注「AI视界引擎」公众号

内容中包含的图片若涉及版权问题，请及时与我们联系删除