ICASSP 2022 | 标点恢复——一套可以同时服务单模态和多模态文本的标点恢复框架

在信息时代，自动语音识别技术 (Automatic Speech Recognition， ASR) 已成为互联网领域一大典型应用，尤其是在智能手机等设备上，语音识别功能已经成为标配。同时，该技术本身还经常作为上游工具，为语音翻译、智能客服等服务提供支持。然而，现今主流的自动语音识别系统是把语音信号识别为无标点的文本块，而这种无标点的本文块往往不能有效地被下游系统利用，由此，标点恢复(punctuation restoration) 任务应运而生，旨在恢复语音识别系统输出文本的标点符号。

今天为大家介绍一篇收录于 ICASSP 2022 的论文：Unified Multimodal Punctuation Restoration Framework for Mixed-Modality Corpus，由字节跳动人工智能实验室完成。本论文提出了一套适用于标点恢复的多模态框架 UniPunc：一方面，新框架可以使用语音信息辅助标点恢复；另一方面，UniPunc 又避免了以往多模态标点恢复模型过分依赖语音信息、无法处理语音缺失文本的困境。

论文链接：https://arxiv.org/abs/2202.00468

代码链接：https://github.com/Yaoming95/UniPunc

图2：UniPunc 总架构

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ICASSP 2022 | 标点恢复——一套可以同时服务单模态和多模态文本的标点恢复框架

评论列表

评论