DINOv3-Guided Cross Fusion Framework for Semantic-aware CT generation from MRI and CBCT

2025年11月15日
  • 简介
    从CBCT或MRI生成合成CT图像在高效的放射剂量规划和自适应放疗中具有重要潜力。然而,现有的基于CNN的模型缺乏对全局语义信息的理解,而Transformer由于模型容量大、归纳偏置较弱,往往在小型医学数据集上容易过拟合。为解决这些问题,我们提出了一种DINOv3引导的跨模态融合(DGCF)框架,该框架将一个冻结的自监督DINOv3 Transformer与一个可训练的CNN编码器-解码器相结合。通过可学习的跨模态融合模块,该方法分层融合了Transformer的全局表征与CNN的局部特征,实现了局部外观细节与上下文信息的平衡表达。此外,我们引入了一种多层级DINOv3感知(MLDP)损失函数,促使生成的合成CT图像与真实CT在DINOv3的特征空间中保持语义相似性。在SynthRAD2023骨盆数据集上的实验表明,DGCF在MRI→CT和CBCT→CT两种转换任务中,均在MS-SSIM、PSNR以及基于分割的指标上达到了最先进的性能。据我们所知,这是首次将DINOv3表征应用于医学图像转换的研究,凸显了自监督Transformer引导在语义感知CT合成中的巨大潜力。代码已公开于https://github.com/HiLab-git/DGCF。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决在放射治疗中从CBCT或MRI生成合成CT图像的问题,以实现高效的辐射剂量规划和自适应放疗。现有基于CNN的方法缺乏全局语义理解,而Transformer模型由于容量大、归纳偏置弱,在小规模医学数据集上容易过拟合,限制了其应用。这是一个具有临床意义且尚未被充分解决的问题。
  • 关键思路
    提出DINOv3-Guided Cross Fusion(DGCF)框架,冻结自监督预训练的DINOv3 Transformer作为全局语义引导器,并与可训练的CNN编码器-解码器结合,通过可学习的跨模态融合模块实现Transformer的全局表征与CNN的局部特征的分层融合。同时引入Multi-Level DINOv3 Perceptual(MLDP)损失,在DINOv3特征空间中增强合成CT与真实CT之间的语义一致性。该方法创新性地利用冻结的视觉Transformer指导CNN架构,兼顾性能与泛化能力。
  • 其它亮点
    在SynthRAD2023骨盆数据集上验证了DGCF在MRI→CT和CBCT→CT两个任务上的优越性,指标包括MS-SSIM、PSNR及分割一致性,达到当前最优性能。首次将DINOv3用于医学图像翻译任务,证明了自监督Transformer作为语义引导器的潜力。模型设计避免了Transformer端到端微调带来的过拟合风险。代码已开源:https://github.com/HiLab-git/DGCF,具备良好的可复现性和临床转化前景。未来可探索该范式在其他模态转换(如PET合成)或多器官区域的应用。
  • 相关研究
    1. 'DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection' (ICLR 2022) 2. 'Emerging Properties in Self-Supervised Vision Transformers' (ICCV 2021) 3. 'TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation' (MICCAI 2021) 4. 'Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation' (arXiv 2022) 5. 'CycleGAN-based Domain Adaptation for CBCT-to-CT Translation in Radiotherapy' (TMI 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问