杜俊：多人交互场景下的说话人分割和语音分离研究

报告摘要：随着深度学习技术的不断发展以及语音技术应用的不断普及，说话人分割（Speaker Diarization）和语音分离的研究逐步从简单场景转向实际多人交互复杂场景，如会议场景和家庭聚会等，同时存在环境噪声、房间混响和多人自由对话的诸多挑战。本报告中将结合今年CHiME-6评测、JSALT 2020研讨会以及DIHARD-III评测这几个重要事件，和大家共同探讨下说话人分割和语音分离目前的研究进展以及未来趋势。

讲者介绍：杜俊，目前是中国科学技术大学语音及语言信息处理国家工程实验室副教授，2009年-2013年就职于科大讯飞研究院和微软亚洲研究院，期间主导开发了语音识别、手写识别和OCR多个产品。研究方向是语音信号处理和模式识别应用，已发表论文150余篇，谷歌学术引用超过3500次，ESI高被引论文2篇，以唯一通讯作者发表的IEEE-ACM TASLP期刊论文获得2018年IEEE信号处理学会最佳论文奖，2019年获安徽省科技进步一等奖。目前担任语音领域顶级期刊IEEE-ACM TASLP的编委、IEEE信号处理学会语音及语言处理技术委员会（SLTC）委员、亚太信号与信息处理协会（APSIPA）语音语言音频分会（SLA）技术委员会的秘书长以及APSIPA Distinguished Lecturer。承担2项国家自然科学基金项目和1项安徽省科技重大专项。带领团队获得2016年、2018年和2020年连续三届CHiME国际语音识别评测9个任务冠军、2018年ICPR多样式网络图像文字识别与检测比赛全部3项冠军、2018年ICPR遥感图像目标检测比赛全部2项冠军、2018年ICFHR东南亚棕榈叶手稿分析比赛2项冠军、2019年CROHME手写公式识别比赛2项冠军、2019年CVPR遥感图像目标检测1项冠军、2020年OffRaSHME离线手写数学公式识别比赛1项冠军、2020年DCASE评测的声音事件定位与检测任务冠军。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

杜俊：多人交互场景下的说话人分割和语音分离研究

评论