OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding

2024年06月11日
  • 简介
    通过视频进行手术场景感知对于推动机器人手术、远程手术和人工智能辅助手术尤其在眼科领域至关重要。然而,缺乏多样性和丰富注释的视频数据集阻碍了智能系统在手术工作流分析方面的发展。现有的手术工作流分析数据集通常面临规模小、手术和阶段类别缺乏多样性以及缺少时间本地化注释等挑战,限制了在复杂和多样化的真实手术场景中进行行动理解和模型泛化验证的需求。为解决这一问题,我们介绍了OphNet,这是一个大规模的专家注释视频基准,用于理解眼科手术工作流程。OphNet包括:1)一个包含2,278个手术视频的多样化收集,涵盖66种白内障、青光眼和角膜手术类型,并提供102个独特手术阶段和150个粒度操作的详细注释;2)它为每个手术、阶段和操作提供了顺序和层次结构注释,实现了全面的理解和改进的可解释性;3)此外,OphNet提供了时间本地化注释,便于在手术工作流中进行时间本地化和预测任务。OphNet约有205小时的手术视频,比现有最大的手术工作流分析基准大约20倍。我们的数据集和代码已经在以下网址公开:\url{https://github.com/minghu0830/OphNet-benchmark}。
  • 图表
  • 解决问题
    本论文旨在解决手术场景感知数据集稀缺的问题,提出了一个大规模的、专家标注的眼科手术工作流理解数据集OphNet。
  • 关键思路
    OphNet数据集包含2,278个眼科手术视频,涵盖了66种不同类型的白内障、青光眼和角膜手术,并提供了102个独特的手术阶段和150个粒度操作的详细注释,同时提供了时间定位注释,有助于进行手术工作流的时间定位和预测任务。
  • 其它亮点
    OphNet数据集是目前最大的手术工作流分析基准数据集之一,提供了丰富的手术场景感知数据和详细的标注信息,同时具有序列和层次注释,使得手术工作流程的理解更加全面和可解释。论文还提供了开源代码和实验设计细节。
  • 相关研究
    最近的相关研究包括:《SurgeryNet: Surgical Instrument Detection in Retinal Microsurgery Using Faster R-CNN》、《A Large-Scale Multi-Institutional Evaluation of Robotic-Assisted Hysterectomy》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论