Zero-shot Prompt-based Video Encoder for Surgical Gesture Recognition

2024年03月28日
  • 简介
    目的:手术视频是手势识别的重要数据流。因此,对于这些数据流的强大的视觉编码器同样重要。 方法:利用Bridge-Prompt框架,我们对预训练的视觉文本模型(CLIP)进行微调,用于手术视频中的手势识别。这可以利用大量的外部视频数据,如文本,但也可以利用标签元数据和弱监督对比损失。结果:我们的实验表明,基于提示的视频编码器在手术手势识别任务中优于标准编码器。值得注意的是,它在零样本情况下表现出强大的性能,其中在编码器训练阶段未提供手势/任务包括在预测阶段。此外,我们测量了在特征提取器训练模式中包含文本描述的好处。 结论:Bridge-Prompt和类似的预训练+微调视频编码器模型为手术机器人提供了重要的视觉表示,特别是在手势识别任务中。考虑到手术任务(手势)的多样性,这些模型具有零样本转移的能力,无需进行任何任务(手势)特定的重新训练,使它们变得非常有价值。
  • 图表
  • 解决问题
    本论文旨在解决手术视频中的手势识别问题,提出了一种利用Bridge-Prompt框架对预训练的视觉-文本模型进行微调的方法。
  • 关键思路
    本论文的关键思路是使用Bridge-Prompt框架对CLIP模型进行微调,利用文本和标签元数据进行弱监督对比损失训练,从而提高手术视频中手势识别的性能,特别是在零样本情况下的表现。
  • 其它亮点
    论文的实验表明,基于prompt的视频编码器在手术手势识别任务中胜过标准编码器。它在零样本情况下表现出强大的性能,而无需进行任何任务特定的重新训练。此外,论文还探讨了在特征提取器的训练模式中包含文本描述的好处。
  • 相关研究
    在相关研究方面,最近的一些工作包括使用视觉-文本模型进行手势识别,如VLP和VMT。此外,还有一些使用深度学习进行手术视频分析的工作,如使用卷积神经网络进行手术姿态估计。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论