PCIE_LAM Solution for Ego4D Looking At Me Challenge

2024年06月18日
  • 简介
    本报告介绍了我们团队在CVPR2024的Ego4D Looking At Me Challenge中提出的“PCIE_LAM”解决方案。该挑战的主要目标是基于已定位社交伙伴面部的视频,准确确定场景中的人是否正在看着佩戴摄像头的人。我们提出的解决方案InternLSTM由InternVL图像编码器和Bi-LSTM网络组成。InternVL提取空间特征,而Bi-LSTM提取时间特征。然而,由于场景中人物与摄像机的距离以及摄像机运动,导致人脸图像模糊,这使得这项任务极具挑战性。为了解决任务的复杂性,我们实现了注视平滑滤波器以消除输出中的噪声或突波。我们的方法在looking at me挑战中取得了第一名,mAP为0.81,准确率为0.93。代码可在https://github.com/KanokphanL/Ego4D_LAM_InternLSTM上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决Ego4D Looking At Me Challenge中的问题,即在面部图像模糊的情况下准确判断人物是否看向佩戴摄像头的人。
  • 关键思路
    论文提出了InternLSTM解决方案,该方案由InternVL图像编码器和Bi-LSTM网络组成,InternVL提取空间特征,Bi-LSTM提取时间特征,并使用Gaze Smoothing过滤器消除输出中的噪声或突波。
  • 其它亮点
    论文在Ego4D Looking At Me Challenge中取得了第一名,mAP为0.81,准确率为0.93。代码已在GitHub上开源。
  • 相关研究
    最近的相关研究包括:'Deep Learning-Based Head Pose Estimation: A Survey','Real-time Eye Gaze Tracking with Webcam','Head Pose Estimation using OpenCV and Dlib'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问