Research on Image Recognition Technology Based on Multimodal Deep Learning

2024年05月06日
  • 简介
    这个项目研究了利用深度神经网络进行人类多模态行为识别的算法。根据不同模态信息的特点,采用不同的深度神经网络来适应不同的模态视频信息。通过各种深度神经网络的整合,该算法成功地跨越多个模态识别行为。在这个项目中,使用了由微软Kinect开发的多个摄像头来收集基于获取传统图像的对应骨点数据。通过这种方式,可以提取图像中的运动特征。最终,通过两种方法识别出的行为特征被综合起来,以促进行为的精确识别和分类。该算法的性能是使用MSR3D数据集进行评估的。这些实验的结果表明,识别行为的准确度始终保持高水平,表明该算法在各种情况下都是可靠的。此外,测试表明,该算法大大提高了视频镜头中行人行为的检测准确率。
  • 图表
  • 解决问题
    本论文试图通过利用深度神经网络识别人类多模态行为,解决多模态行为识别的问题。
  • 关键思路
    本论文通过集成不同的深度神经网络,针对不同的模态信息进行适应性学习,最终将不同模态信息的行为特征进行综合,提高行为识别的准确性。
  • 其它亮点
    本文使用了Microsoft Kinect开发的多个摄像头收集骨骼点数据,通过提取图像中的运动特征来识别行为。实验使用了MSR3D数据集,结果表明算法在不同场景下的准确性都很高,能够有效提高行人行为识别的准确性。
  • 相关研究
    在这个领域中,还有一些相关的研究,例如:“Learning Human Actions from RGB-D Videos Using Action Tubelets and Feature Selective Rotation Forests”(通过使用动作管道和特征选择旋转森林从RGB-D视频中学习人类动作)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论