GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing

简介

多模态语言模型（MLMs）旨在处理和整合来自多个来源的信息，例如文本、语音、图像和视频。尽管在语言理解方面取得了成功，但评估下游任务的性能对于更好的以人为中心的应用至关重要。本文评估了MLMs在情感计算中应用的5个关键能力，涵盖视觉情感任务和推理任务。结果显示，GPT4在面部动作单元识别和微表情检测方面具有高精度，而其一般面部表情识别性能不准确。我们还强调了实现细粒度微表情识别的挑战以及进一步研究的潜力，并通过与任务相关代理的集成展示了GPT4处理情感识别和相关领域的高级任务的多功能性和潜力，例如通过信号处理进行心率估计等更复杂的任务。总之，本文提供了有关MLMs在以人为中心的计算中潜在应用和挑战的有价值的见解。有趣的样本可在\url{https://github.com/LuPaoPao/GPT4Affectivity}上找到。
图表
解决问题

评估多模态语言模型在情感计算中的应用能力和挑战。
关键思路

通过与多项关键任务的实验结果，评估GPT4在面部表情识别和微表情检测等方面的性能，同时强调微表情识别的难点和潜在研究方向。同时，探讨了将GPT4与任务相关代理相结合以处理更复杂任务的潜力。
其它亮点

实验结果显示，GPT4在面部动作单元识别和微表情检测方面具有较高的准确性，但在一般面部表情识别方面准确性不高。研究还探讨了通过信号处理进行心率估计等更复杂任务的潜力。研究者提供了有趣的样本，并在GitHub上开源了代码。
相关研究

最近的相关研究包括：1.《Facial Expression Recognition using Multimodal Data: A Comprehensive Survey》；2.《Multimodal Emotion Recognition with Multiscale Convolutional Neural Networks》；3.《Affective Computing with Deep Learning: A Review》。

GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing

评论