报告摘要:本次报告介绍西工大音频语音与语言处理研究组(ASLP@NPU)在复杂场景下的多通道说话人分离与声纹对抗攻击方面的研究进展。首先介绍一种端到端神经网络建模的多通道说话人分离方法,而后在该方法的基础上扩展到一个同时去混、增强和说话人分离的建模方案,解决实际挑战场景下说话人语音质量的增强问题。最后,向大家汇报实验室近期在基于心理声学模型的声纹对抗攻击方法的研究进展。

讲者介绍:谢磊,西北工业大学计算机学院教授、博导,音频语音与语言处理研究组(ASLP@NPU)负责人。曾在比利时布鲁塞尔自由大学、香港城市大学和香港中文大学从事研究工作。获得教育部新世纪优秀人才支持计划、陕西省青年科技新星、西安市青年科技奖、亚太信号与信息处理协会杰出讲学专家等荣誉。研究领域包括音频语音与语言处理、多媒体技术、机器学习、人机交互等。在包括IEEE/ACM TASLP, IEEE TMM, Interspeech, ICASSP, ASRU,ACL,ACM MM在内的重要期刊和会议上发表论文180余篇,获得多项学术会议最佳论文奖和重要国际评测第一名。与华为、微软、腾讯、阿里巴巴、搜狗、小米、京东、百度、出门问问、字节跳动、快手、美团、爱奇艺等十余家业界著名企业开展了广泛深入的技术合作,研究成果在企业中获得广泛应用。担任重要学术会议主席40余次,包括IEEE SLT2021大会主席、ISCSLP2016程序委员会主席、全国人机语音通讯学术会议(NCMMSC2011、2019)程序委员会主席、中国多媒体大会ChinaMM2019程序委员会主席,语音领域旗舰期刊IEEE/ACM TASLP的编委,中国计算机学会语音对话与听觉专业组常务委员、中国中文信息学会理事、中国中文信息学会语音信息专业委员会副主任,NCMMSC常设机构副主席、IEEE高级会员等。

内容中包含的图片若涉及版权问题,请及时与我们联系删除