报告摘要:针对单通道多人对话音频,说话人日志算法能够自动地识别音频中有几个说话人,并记录每个说话人发声的起止时间点。说话人日志研究覆盖的场景非常广泛,简单场景比如电话客服通信等,由于说话人数较为固定且为近场数据,已有相对成熟的实现方案;而复杂场景比如会议记录、访谈对话等,由于包含说话人数量不确定、多人语音混叠、噪声干扰明显、录音设备信道复杂等难点中的一个或多个,从而造成复杂场景下的说话人日志研究极具挑战性。我将从模块化方法和端到端框架这两个方面来介绍我们组近一年来在基于深度学习的说话人日志方向上的工作。

讲者介绍:李明,博士毕业于美国南加州大学, 现任昆山杜克大学电子与计算机工程副教授, 武汉大学计算机学院兼职教授, 博导。研究方向包括音频语音信息处理,多模态行为信号分析等方向。已发表学术论文120 余篇,现担任IEEE语音及语言技术委员会委员,APSIPA 语音及语言处理技术委员会委员,中国计算机学会语音对话与听觉专业组专委,中国人工智能学会人工心理与人工情感专委会专委, ,IEEE学会高级会员。曾担任Interspeech2016, 2018及2020年说话人语种识别领域主席。带领团队于2011年,2012年,2019年三次获得了INTERSPEECH paralinguistic challenge 第一名,ASRU19 阿拉伯语语种识别第一名, interspeech20 fearless steps 说话人识别第一名, 指导学生获得ISCSLP2014最佳学生论文奖, IEEE CPTECE2018最佳论文奖。2016年被授予IBM Faculty Award,2018年被授予ISCA 5年最佳期刊论文奖,2020年获教育部高校科研优秀成果奖(人文社科,青年),Google Scholar 3000+。

内容中包含的图片若涉及版权问题,请及时与我们联系删除