Hear Me, See Me, Understand Me: Audio-Visual Autism Behavior Recognition

2024年03月22日
  • 简介
    本文介绍了一种新颖的问题——音视频自闭症行为识别,其中包括社交行为识别,这是之前在AI辅助自闭症筛查研究中被忽略的一个重要方面。我们将手头的任务定义为音视频自闭症行为识别,它使用音频和视觉线索,包括音频中的任何语音,来识别与自闭症相关的行为。为了促进这个新的研究方向,我们收集了一个音视频自闭症谱系数据集(AV-ASD),它是目前使用行为方法进行自闭症筛查的最大视频数据集。它涵盖了广泛的与自闭症相关的行为,包括与社交沟通和互动相关的行为。为了为进一步研究这个新问题铺平道路,我们深入探讨了跨不同模态的基础模型和多模态大型语言模型的应用。我们在AV-ASD数据集上的实验表明,整合音频、视觉和语音模态显著提高了自闭症行为识别的性能。此外,我们探讨了在多模态大型语言模型中使用后处理到自适应管道的方法,以研究它在自闭症行为识别过程中增强模型解释能力的潜力。我们将发布我们的数据集、代码和预训练模型。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决音视频自闭症行为识别问题,包括社交行为识别,这是以前AI辅助自闭症筛查研究中被忽略的重要方面。
  • 关键思路
    本论文的关键思路是使用音频、视觉和语音模态相结合的方法,对自闭症相关行为进行识别,并探索后处理到自适应处理流程,以提高模型的解释能力。
  • 其它亮点
    本论文收集了目前最大的音视频自闭症谱数据集(AV-ASD),涵盖了广泛的自闭症相关行为,包括社交交流和互动等方面。实验结果表明,将音频、视觉和语音模态相结合可以显著提高自闭症行为识别的性能。本论文将公开数据集、代码和预训练模型。
  • 相关研究
    最近的相关研究包括“使用多模态模型进行自闭症谱识别”和“自闭症谱诊断的机器学习方法”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问