在信息时代,自动语音识别技术 (Automatic Speech Recognition, ASR) 已成为互联网领域一大典型应用,尤其是在智能手机等设备上,语音识别功能已经成为标配。同时,该技术本身还经常作为上游工具,为语音翻译、智能客服等服务提供支持。然而,现今主流的自动语音识别系统是把语音信号识别为无标点的文本块,而这种无标点的本文块往往不能有效地被下游系统利用,由此,标点恢复(punctuation restoration) 任务应运而生,旨在恢复语音识别系统输出文本的标点符号。

今天为大家介绍一篇收录于 ICASSP 2022 的论文:Unified Multimodal Punctuation Restoration Framework for Mixed-Modality Corpus,由字节跳动人工智能实验室完成。本论文提出了一套适用于标点恢复的多模态框架 UniPunc:一方面,新框架可以使用语音信息辅助标点恢复;另一方面,UniPunc 又避免了以往多模态标点恢复模型过分依赖语音信息、无法处理语音缺失文本的困境。

论文链接:https://arxiv.org/abs/2202.00468

代码链接:https://github.com/Yaoming95/UniPunc

图2:UniPunc 总架构

内容中包含的图片若涉及版权问题,请及时与我们联系删除