- 简介psifx是一个即插即用的多模式特征提取工具包,旨在促进和民主化最先进的机器学习技术在人类科学研究中的使用。它的动机在于:(a)自动化和标准化数据注释过程,否则需要昂贵、漫长和不一致的人力,例如从音频和视频来源中转录或编码行为变化;(b)开发和分发开源社区驱动的心理学研究软件;(c)使非专业用户能够大规模访问和使用。该框架包含一系列工具,用于说话人分离、从音频进行闭幕式字幕转录和翻译,以及从视频中进行身体、手部和面部姿势估计和注视跟踪。该软件包采用模块化和任务导向的方法设计,使社区能够轻松地添加或更新新工具。我们强烈希望这个软件包能为心理学家提供一个简单实用的解决方案,以高效地从音频和视频中提取一系列语言和视觉特征,从而创造研究实时行为现象的新机会。
-
- 图表
- 解决问题psifx旨在为人类科学研究提供一个简单而实用的解决方案,以自动化和标准化数据注释过程,从而减少昂贵、漫长和不一致的人力劳动,同时提高非专业用户的使用门槛。
- 关键思路psifx采用模块化和任务导向的方法,提供了一系列工具,如说话人分离、音频字幕转录和翻译、视频中的身体、手和面部姿势估计以及凝视跟踪。这些工具可以帮助心理学家高效地从音频和视频中提取各种特征,从而为实时行为现象的深入研究创造新的机会。
- 其它亮点论文中提出的psifx框架采用了模块化和任务导向的方法,使得用户可以轻松添加或更新新的工具。该框架还提供了一些实用的工具,如说话人分离、音频字幕转录和翻译、视频中的身体、手和面部姿势估计以及凝视跟踪。该框架的开源代码可以帮助心理学家更好地研究实时行为现象。
- 最近在这个领域中,还有一些相关研究被进行。例如,一篇名为“OpenFace 2.0: Facial Behavior Analysis Toolkit”的论文提出了一个面部表情分析工具包;另一篇名为“DeepSBD: Deep Speaker Diarization for Meetings”的论文则提出了一个用于会议说话人分离的深度学习模型。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流