DINOv3-Guided Cross Fusion Framework for Semantic-aware CT generation from MRI and CBCT

向作者提问

NEW

简介

从CBCT或MRI生成合成CT图像在高效的放射剂量规划和自适应放疗中具有重要潜力。然而，现有的基于CNN的模型缺乏对全局语义信息的理解，而Transformer由于模型容量大、归纳偏置较弱，往往在小型医学数据集上容易过拟合。为解决这些问题，我们提出了一种DINOv3引导的跨模态融合（DGCF）框架，该框架将一个冻结的自监督DINOv3 Transformer与一个可训练的CNN编码器-解码器相结合。通过可学习的跨模态融合模块，该方法分层融合了Transformer的全局表征与CNN的局部特征，实现了局部外观细节与上下文信息的平衡表达。此外，我们引入了一种多层级DINOv3感知（MLDP）损失函数，促使生成的合成CT图像与真实CT在DINOv3的特征空间中保持语义相似性。在SynthRAD2023骨盆数据集上的实验表明，DGCF在MRI→CT和CBCT→CT两种转换任务中，均在MS-SSIM、PSNR以及基于分割的指标上达到了最先进的性能。据我们所知，这是首次将DINOv3表征应用于医学图像转换的研究，凸显了自监督Transformer引导在语义感知CT合成中的巨大潜力。代码已公开于https://github.com/HiLab-git/DGCF。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决在放射治疗中从CBCT或MRI生成合成CT图像的问题，以实现高效的辐射剂量规划和自适应放疗。现有基于CNN的方法缺乏全局语义理解，而Transformer模型由于容量大、归纳偏置弱，在小规模医学数据集上容易过拟合，限制了其应用。这是一个具有临床意义且尚未被充分解决的问题。
关键思路

提出DINOv3-Guided Cross Fusion（DGCF）框架，冻结自监督预训练的DINOv3 Transformer作为全局语义引导器，并与可训练的CNN编码器-解码器结合，通过可学习的跨模态融合模块实现Transformer的全局表征与CNN的局部特征的分层融合。同时引入Multi-Level DINOv3 Perceptual（MLDP）损失，在DINOv3特征空间中增强合成CT与真实CT之间的语义一致性。该方法创新性地利用冻结的视觉Transformer指导CNN架构，兼顾性能与泛化能力。
其它亮点

在SynthRAD2023骨盆数据集上验证了DGCF在MRI→CT和CBCT→CT两个任务上的优越性，指标包括MS-SSIM、PSNR及分割一致性，达到当前最优性能。首次将DINOv3用于医学图像翻译任务，证明了自监督Transformer作为语义引导器的潜力。模型设计避免了Transformer端到端微调带来的过拟合风险。代码已开源：https://github.com/HiLab-git/DGCF，具备良好的可复现性和临床转化前景。未来可探索该范式在其他模态转换（如PET合成）或多器官区域的应用。
相关研究

1. 'DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection' (ICLR 2022) 2. 'Emerging Properties in Self-Supervised Vision Transformers' (ICCV 2021) 3. 'TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation' (MICCAI 2021) 4. 'Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation' (arXiv 2022) 5. 'CycleGAN-based Domain Adaptation for CBCT-to-CT Translation in Radiotherapy' (TMI 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问