General surgery vision transformer: A video pre-trained foundation model for general surgery

简介

缺乏公开可访问的数据和专业基础模型是外科计算研究的主要障碍。为此，（i）我们开源了迄今为止最大的普通外科视频数据集，包括来自机器人和腹腔镜技术的28种手术过程的680小时手术视频数据；（ii）我们提出了一种基于前向视频预测的外科视觉变换器（GSViT）视频预训练技术，可实时运行于外科应用，我们开源了GSViT的代码和权重；（iii）我们还发布了10种手术过程的程序特定微调版本的GSViT的代码和权重；（iv）我们展示了GSViT在Cholec80阶段注释任务上的性能，显示出比最先进的单帧预测器更好的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

开放获取的数据和专业的基础模型的缺失是外科手术计算研究的主要障碍。
关键思路

通过开源最大的外科手术视频数据集，提出了基于前向视频预测的外科手术视觉变换器（GSViT）的视频预训练技术，以及针对10种手术的特定微调版本的GSViT。
其它亮点

该数据集包括680小时的外科手术视频，包括来自机器人和腹腔镜技术的28种手术数据；GSViT可以实时运行外科手术应用程序；在Cholec80阶段注释任务中，GSViT显示出比最先进的单帧预测器更好的性能。
相关研究

最近的相关研究包括：EndoVis和CholecSplit数据集，以及使用深度学习技术进行外科手术视频分析的其他研究，例如SurgicalNet、SurgicalGAN和SurgicalTransformer等。

General surgery vision transformer: A video pre-trained foundation model for general surgery

提问交流

提问交流