Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer

2024年04月26日
  • 简介
    情感识别旨在通过主体为中心和上下文视觉线索来辨别图像中主体的情感状态。目前的方法通常采用两阶段流程:首先使用现成的检测器定位主体,然后通过主体和上下文特征的后期融合进行情感分类。然而,这种复杂的范式存在训练阶段不连贯和细粒度主体-上下文元素之间互动有限的问题。为了解决这个挑战,我们提出了一种单阶段情感识别方法,采用分离的主体-上下文变换器(DSCT),用于同时定位主体和情感分类。我们不是将训练阶段分隔开,而是联合利用框和情感信号作为监督,丰富以主体为中心的特征学习。此外,我们引入DSCT以促进细粒度主体-上下文线索之间的交互,采用分离-融合的方式。在DSCT内部,分离的查询标记——主体查询和上下文查询——逐渐交织在各层之间,利用和聚合空间和语义关系。我们在两个广泛使用的上下文感知情感识别数据集CAER-S和EMOTIC上评估了我们的单阶段框架。我们的方法在参数数量更少的情况下超过了两阶段替代方案,在CAER-S和EMOTIC数据集上分别实现了3.39%的准确度提高和6.46%的平均精度提高。
  • 图表
  • 解决问题
    本论文旨在解决情感识别中存在的两个阶段的问题,即主体定位和情感分类,提出了一种单阶段情感识别方法,同时进行主体定位和情感分类。
  • 关键思路
    本文提出了Decoupled Subject-Context Transformer (DSCT)来实现主体和上下文之间的交互,同时利用盒子和情感信号作为监督来丰富以主体为中心的特征学习。
  • 其它亮点
    该方法在两个广泛使用的情境感知情感识别数据集上进行了评估,并超过了两个阶段的替代方案,具有更少的参数数量,分别在CAER-S和EMOTIC数据集上实现了3.39%的准确度提高和6.46%的平均精度增益。
  • 相关研究
    相关研究包括使用深度学习方法进行情感识别的先前工作,以及使用不同的技术来解决主体定位和情感分类的问题的研究。例如,一些研究使用卷积神经网络进行情感识别,而另一些研究则使用注意力机制来解决主体和上下文之间的交互问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论