EndoDAC: Efficient Adapting Foundation Model for Self-Supervised Depth Estimation from Any Endoscopic Camera

简介

深度估计在内窥镜手术中扮演着至关重要的角色，包括导航、表面重建和增强现实可视化等多个任务。尽管基础视觉模型在深度估计等任务中已取得了显著成果，但将其直接应用于医学领域往往会导致性能亚优。这突显了需要有效的适应方法将这些模型适应于内窥镜深度估计。我们提出了一种名为Endoscopic Depth Any Camera（EndoDAC）的高效自监督深度估计框架，可以将基础模型适应于内窥镜场景。具体而言，我们开发了动态向量低秩适应（DV-LoRA）并使用卷积颈块来将基础模型定制为外科领域，利用极少的可训练参数。考虑到摄像机信息并不总是可用的，我们还引入了一种自监督适应策略，使用姿态编码器估计摄像机内参。我们的框架能够仅使用来自任何摄像机的单眼外科视频进行训练，确保最小的训练成本。实验表明，我们的方法即使在较少的训练时期和不知道地面实况摄像机内参的情况下，也能获得优越的性能。代码可在https://github.com/BeileiCui/EndoDAC获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决内窥镜手术中深度估计问题，提出了一种有效的自监督深度估计框架，能够适应内窥镜场景，并在无需相机信息的情况下进行训练。
关键思路

论文提出了一种动态向量低秩自适应方法（DV-LoRA）和卷积颈块来适应基础模型到内窥镜手术领域，使用极少的可训练参数。此外，论文还引入了一种自监督适应策略，利用姿态编码器估计相机内参。
其它亮点

论文使用自监督学习方法，能够在无需相机信息的情况下进行训练，减少了训练成本。实验结果表明，该方法在内窥镜场景下具有优异的性能，甚至在少量训练时也能取得较好的效果。论文还提供了开源代码。
相关研究

最近的相关研究包括使用神经网络进行内窥镜图像分割和分类、利用深度学习进行内窥镜图像增强等。

EndoDAC: Efficient Adapting Foundation Model for Self-Supervised Depth Estimation from Any Endoscopic Camera

提问交流

提问交流