百度语音团队在2021年第十六届全国人机语音通讯学术会议(NCMMSC2021)上对外重磅发布基于历史信息抽象的流式截断 conformer 建模技术——SMLTA2,解决了 Transformer 模型用于在线语音识别任务中面临的问题,引发瞩目。
通过对 Transformer 模型的深入研究,百度的研究人员在 SMLTA1 的基础上,进一步提出了基于历史特征抽象的流式语音识别建模方法 SMLTA2。SMLTA2 模型不仅保留了 SMLTA1 流式、多级、截断的特点,还通过引入基于 Attention 的历史特征抽象以及从 Decoder 到 Encoder 各层的注意力机制,解决了 Transformer 模型用于在线语音识别任务中面临的问题。其核心结构和历史特征抽象的原理如下图所示。
SMLTA2 模型结构和历史特征抽象原理
此次发布的 SMLTA2 依旧保持了流式识别的特点,具备工业产品落地的能力。目前在实验室内,模拟线上环境进行测试,SMLTA2 在同等计算资源消耗的情况下,相对于上一代技术错误率降低大约 12%。SMLTA2 的提出,是百度在语音识别领域的又一技术突破,也是百度 AI 技术继续领跑行业的重要技术创新。期待 SMLTA2 的产品上线应用,实现语音识别准确率的再度提升,给用户带来全新的交互体验。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢