FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images

向作者提问

NEW

简介

Segment anything models（SAMs）由于在正确提示的情况下能够对未知类别和未知领域的对象进行分割而获得关注。SAMs的交互性是其关键优势之一，允许用户迭代地提供提示以指定感兴趣的对象以改善输出结果。然而，要实现SAMs在3D医学成像任务中的交互使用，需要快速的推理时间。高内存需求和长处理延迟仍然是阻碍SAMs用于此目的的限制因素。具体而言，虽然应用于3D体积的2D SAMs在处理所有切片时面临重复计算的问题，但3D SAMs则面临模型参数和FLOPS的指数增长。为了解决这些挑战，我们提出了FastSAM3D，它可以在NVIDIA A100 GPU上将SAM推理加速到每128*128*128 3D体积图像8毫秒。这种加速是通过以下两种方式实现的：1）一种新颖的逐层渐进蒸馏方案，使得从复杂的12层ViT-B到轻量级6层ViT-Tiny变体编码器的知识转移成为可能，而无需从头开始训练；2）一种新颖的3D稀疏闪存注意力，用于替换普通的注意力算子，大大减少了内存需求并提高了并行性。在三个不同的数据集上的实验表明，FastSAM3D与2D SAMs相比在相同体积上实现了527.38倍的加速，并且与3D SAMs相比实现了8.75倍的加速，而没有显著的性能下降。因此，FastSAM3D为使用常用GPU硬件进行低成本的真正交互式SAM基础的3D医学成像分割开辟了道路。代码可在https://github.com/arcadelab/FastSAM3D上获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

FastSAM3D论文旨在解决使用Segment anything models (SAMs)进行3D医学图像分割时，高内存需求和长处理时间的问题。
关键思路

FastSAM3D通过引入一种新的逐层渐进蒸馏方案，将知识从复杂的12层ViT-B传输到轻量级的6层ViT-Tiny变体编码器，从而实现了SAM推理的加速。同时，通过使用新型的3D稀疏闪光注意机制，取代传统的注意力运算符，大大减少了内存需求和提高了并行性。
其它亮点

FastSAM3D在三个不同的数据集上进行了实验，结果表明相比于2D SAMs和3D SAMs，FastSAM3D在相同体积的图像上实现了显著的加速，同时保持了分割性能。此外，FastSAM3D的代码已经开源。
相关研究

在这个领域中，最近的相关研究包括：1）使用3D卷积神经网络进行医学图像分割；2）使用自注意力机制进行医学图像分割；3）使用深度学习进行医学图像分割的综述等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问