Multimodal Transformers for Real-Time Surgical Activity Prediction

2024年03月11日
  • 简介
    本文提出了一种多模态变换器架构,用于基于运动学和视频数据的短段实时识别和预测外科手势和轨迹,这对于推进机器人辅助手术的安全性和自主性至关重要。我们进行了消融研究,评估了融合不同输入模态及其表示对手势识别和预测性能的影响。我们使用JHU-ISI手势和技能评估工作集(JIGSAWS)数据集对所提出的架构进行了端到端的评估。通过有效融合运动学特征与空间和上下文视频特征,我们的模型在手势预测方面的准确率达到了89.5%,超过了现有技术水平。它通过依赖计算效率高的模型,实现了1.1-1.3毫秒的实时性能,能够处理1秒输入窗口。
  • 图表
  • 解决问题
    本文旨在通过多模态转换器架构,基于运动和视频数据的短段实现手术姿势和轨迹的实时识别和预测,以提高机器人辅助手术的安全性和自主性。
  • 关键思路
    本文提出了一种多模态转换器架构,通过有效融合运动特征和空间上下文视频特征,实现手术姿势和轨迹的实时识别和预测,实现了1.1-1.3ms的实时性能。
  • 其它亮点
    本文使用JHU-ISI手势和技能评估工作集(JIGSAWS)数据集进行了端到端评估,并进行了消融研究,评估了融合不同输入模态及其表示对手势识别和预测性能的影响。本文模型实现了89.5%的手势预测准确率,优于现有技术,同时具有计算效率高的特点。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Real-Time Detection and Recognition of Surgical Tools in Robot-Assisted Surgery Using Mask R-CNN and YOLOv3》、《Real-time Surgical Tool Detection and Tracking Using a Generative Adversarial Network and Faster R-CNN》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论