- 简介本报告介绍了我们团队在CVPR2024的Ego4D Looking At Me Challenge中提出的“PCIE_LAM”解决方案。该挑战的主要目标是基于已定位社交伙伴面部的视频,准确确定场景中的人是否正在看着佩戴摄像头的人。我们提出的解决方案InternLSTM由InternVL图像编码器和Bi-LSTM网络组成。InternVL提取空间特征,而Bi-LSTM提取时间特征。然而,由于场景中人物与摄像机的距离以及摄像机运动,导致人脸图像模糊,这使得这项任务极具挑战性。为了解决任务的复杂性,我们实现了注视平滑滤波器以消除输出中的噪声或突波。我们的方法在looking at me挑战中取得了第一名,mAP为0.81,准确率为0.93。代码可在https://github.com/KanokphanL/Ego4D_LAM_InternLSTM上获得。
-
- 图表
- 解决问题论文旨在解决Ego4D Looking At Me Challenge中的问题,即在面部图像模糊的情况下准确判断人物是否看向佩戴摄像头的人。
- 关键思路论文提出了InternLSTM解决方案,该方案由InternVL图像编码器和Bi-LSTM网络组成,InternVL提取空间特征,Bi-LSTM提取时间特征,并使用Gaze Smoothing过滤器消除输出中的噪声或突波。
- 其它亮点论文在Ego4D Looking At Me Challenge中取得了第一名,mAP为0.81,准确率为0.93。代码已在GitHub上开源。
- 最近的相关研究包括:'Deep Learning-Based Head Pose Estimation: A Survey','Real-time Eye Gaze Tracking with Webcam','Head Pose Estimation using OpenCV and Dlib'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流