- 简介本文介绍了一种新颖的问题——音视频自闭症行为识别,其中包括社交行为识别,这是之前在AI辅助自闭症筛查研究中被忽略的一个重要方面。我们将手头的任务定义为音视频自闭症行为识别,它使用音频和视觉线索,包括音频中的任何语音,来识别与自闭症相关的行为。为了促进这个新的研究方向,我们收集了一个音视频自闭症谱系数据集(AV-ASD),它是目前使用行为方法进行自闭症筛查的最大视频数据集。它涵盖了广泛的与自闭症相关的行为,包括与社交沟通和互动相关的行为。为了为进一步研究这个新问题铺平道路,我们深入探讨了跨不同模态的基础模型和多模态大型语言模型的应用。我们在AV-ASD数据集上的实验表明,整合音频、视觉和语音模态显著提高了自闭症行为识别的性能。此外,我们探讨了在多模态大型语言模型中使用后处理到自适应管道的方法,以研究它在自闭症行为识别过程中增强模型解释能力的潜力。我们将发布我们的数据集、代码和预训练模型。
-
- 图表
- 解决问题本论文旨在解决音视频自闭症行为识别问题,包括社交行为识别,这是以前AI辅助自闭症筛查研究中被忽略的重要方面。
- 关键思路本论文的关键思路是使用音频、视觉和语音模态相结合的方法,对自闭症相关行为进行识别,并探索后处理到自适应处理流程,以提高模型的解释能力。
- 其它亮点本论文收集了目前最大的音视频自闭症谱数据集(AV-ASD),涵盖了广泛的自闭症相关行为,包括社交交流和互动等方面。实验结果表明,将音频、视觉和语音模态相结合可以显著提高自闭症行为识别的性能。本论文将公开数据集、代码和预训练模型。
- 最近的相关研究包括“使用多模态模型进行自闭症谱识别”和“自闭症谱诊断的机器学习方法”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流