OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding

2024年06月11日
  • 简介
    通过视频进行手术场景感知对于推动机器人手术、远程手术和人工智能辅助手术尤其在眼科领域至关重要。然而,缺乏多样化和丰富注释的视频数据集阻碍了智能系统用于手术工作流分析的发展。现有的手术工作流分析数据集通常面临着规模小、手术和阶段类别缺乏多样性以及缺乏时间本地化注释等挑战,这限制了在复杂和多样化的真实手术场景下对行动理解和模型泛化验证的要求。为了解决这一问题,我们介绍了OphNet,这是一个大规模的专家注释视频基准,用于理解眼科手术工作流程。OphNet具有以下特点:1)包含2,278个手术视频,涵盖66种白内障、青光眼和角膜手术类型,其中包括102个独特的手术阶段和150个细致的手术操作的详细注释;2)为每个手术、阶段和操作提供了顺序和分层注释,实现了全面的理解和改进的可解释性;3)此外,OphNet提供了时间本地化的注释,有助于在手术工作流程内进行时间本地化和预测任务。OphNet拥有约205小时的手术视频,比现有最大的手术工作流分析基准大约20倍。我们已经在\url{https://github.com/minghu0830/OphNet-benchmark}上提供了我们的数据集和代码。
  • 图表
  • 解决问题
    本论文旨在解决手术场景感知的问题,特别是在眼科手术中,缺乏多样化和丰富注释的视频数据集阻碍了智能系统的发展。
  • 关键思路
    本文提出了OphNet,一个大规模的、专家注释的视频基准,用于眼科手术工作流程理解。OphNet具有多样化的手术视频集合,涵盖66种白内障、青光眼和角膜手术类型,具有102个独特的手术阶段和150个细粒度操作的详细注释。
  • 其它亮点
    OphNet提供了每个手术、阶段和操作的顺序和分层注释,并提供了时间本地化注释,有助于手术工作流程中的时间本地化和预测任务。该数据集约有205小时的手术视频,比现有的最大手术工作流分析基准大约20倍。作者已经公开了数据集和代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如:Surgical Workflow Analysis: A Survey和Surgical Workflow Recognition Using Recurrent Neural Networks。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论