报告摘要:在会议场景中,由于多说话人、远场、跨领域等问题,导致声纹识别性能大幅下降。本报告主要介绍近期在说话人聚类和跨域声纹识别方面的研究进展。在说话人聚类方面,首先计算各个音频片段之间的相似度矩阵,提出一种基于密度峰值的说话人音频片段聚类方法。在跨域声纹识别方面,提出一种孪生对抗网络,通过语音的成对输入和领域异同判决,得到领域无关的说话人鉴别性特征,可显著提升跨领域任务中的声纹识别性能。

讲者介绍:张鹏远,中国科学院声学研究所研究员、博士生导师,中国科学院大学岗位教授,英国谢菲尔德大学公派访问学者(2013-2014)。现任职中科院语言声学与内容理解重点实验室副主任。研究领域主要包括大词汇量连续语音识别、声纹/语种识别、语音合成、丰富音频检测、语音信号处理等。在IEEE/ACM Trans.on ASLP等国内外权威期刊以及IACSSP等顶级学术会议上已发表80余篇学术论文,获授权专利6项, INTERSPEECH2019/2020领域主席和分会主席; 主持的项目包括国家自然科学基金、国家重点研发计划重点专项课题、中国科学院战略性先导科技专项(C类)课题;在国内外举办的语音核心技术评测中多次取得第一名,如获得2019年度IEEE DCASE比赛冠军、中国人工智能大赛音频检索冠军;曾获中国科学院杰出科技成就奖(2014,主要完成人),北京市科技进步二等奖(2019,排名2)。

内容中包含的图片若涉及版权问题,请及时与我们联系删除