CorrNet+: Sign Language Recognition and Translation via Spatial-Temporal Correlation

2024年04月17日
  • 简介
    这篇论文介绍了一个空间-时间相关性网络(CorrNet+),它能够显式地识别多帧中的人体轨迹,从而提供了一个关于人体运动的整体视角,有助于更深入地理解手语。具体来说,CorrNet+采用了相关性模块和识别模块来构建人体轨迹,并随后使用时间注意力模块来自适应地评估不同帧的贡献。作为一个统一的模型,CorrNet+在两个广泛的手语理解任务,包括连续手语识别(CSLR)和手语翻译(SLT)方面实现了新的最先进的性能。与CorrNet相比,CorrNet+在所有基准测试中都取得了显著的性能提升,同时减少了一半的计算开销。与以前的空间-时间推理方法进行的全面比较验证了CorrNet+的优越性。可以在https://github.com/hulianyuyy/CorrNet_Plus上获得代码。
  • 图表
  • 解决问题
    本文旨在解决手语理解中忽视帧间相关性的问题,提出了一种新的空间-时间相关网络,称为CorrNet+。
  • 关键思路
    CorrNet+通过使用相关模块和识别模块来构建人体轨迹,并采用时间注意力模块来自适应地评估不同帧的贡献。这种方法提供了对人体运动的整体视角,有助于更深入地理解手语。
  • 其它亮点
    CorrNet+在两个广泛的手语理解任务(连续手语识别和手语翻译)上实现了新的最先进性能,而且相比之前的方法,它不需要使用资源密集型的姿态估计网络或预提取的手部和面部特征热图。此外,CorrNet+的计算开销只有CorrNet的一半。研究者在多个数据集上进行了实验,并公开了代码。
  • 相关研究
    在这个领域中最近的相关研究包括:《Sign Language Recognition using Temporal Residual Networks with Skip Connections》、《Sign Language Recognition using 3D Convolutional Neural Networks and Convolutional LSTM》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论