Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition

2024年07月19日
  • 简介
    自动手语识别是计算机视觉领域中的一个重要任务。为了建立一个强大的手语识别系统,我们需要大量的数据,特别是在印度手语方面缺乏。在本文中,我们提出了一个大规模的孤立印度手语数据集和一种基于骨架图结构的新型手语识别模型。该数据集包含由20名聋哑成年手语者(包括10名男性和10名女性)录制的2002个日常常用单词(包含40033个视频)。我们提出了一种手语识别模型,即分层窗口图注意网络(HWGAT),利用人体上半身骨架图结构。HWGAT试图通过关注由人体骨架图结构引起的不同身体部位来捕捉独特的运动。通过广泛的实验评估了所提出的数据集的实用性和我们的模型的有用性。我们在所提出的数据集上对所提出的模型进行了预训练,并在不同的手语数据集上进行了微调,相对于现有的基于骨架的模型,在INCLUDE、LSA64、AUTSL和WLASL方面的表现分别提高了1.10、0.46、0.78和6.84个百分点。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决印度手语(ISL)识别中数据缺乏的问题,提出了一个大规模的ISL数据集和一种基于骨架图结构的新型手语识别模型。
  • 关键思路
    该论文提出了一种名为Hierarchical Windowed Graph Attention Network(HWGAT)的手语识别模型,利用人体上半身骨架图结构捕捉不同的运动。
  • 其它亮点
    论文提出的ISL数据集包含40033个视频,由20个聋哑成年手语者录制,涵盖了2002个日常常用词汇。作者通过对不同身体部位的关注,利用骨架图结构捕捉了手语中的独特动作。作者还进行了实验,证明了所提出的模型在不同的手语数据集上的表现优于现有的基于骨架的模型。
  • 相关研究
    近期的相关研究包括:《Real-time American Sign Language Recognition using Neural Networks》、《A Survey on Sign Language Recognition: Image-based and Wearable Systems》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问