快手团队长文解读：基于FPGA加速的自动语音识别在大规模直播和短视频场景的应用

典型的实时流式自动语音识别业务如语音搜索、语音输入等和用户操作相关，直接影响用户体验，最重要的性能指标是延迟，其次是并发路数。TDNN+LSTM 作为一种主流的实时流式声学模型，可以实现低延迟、高并发。本文介绍了快手异构计算与 MMU 音频中心合作的针对 TDNN+LSTM 声学模型的全定点推理硬件加速方案。该方案基于 FPGA，在流式 ASR 服务场景下, 高峰期平均延时减小 37.67 %，并发路数提升 7.5 倍，是 FPGA 在国内大规模数据中心语音场景落地的成功案例之一。

快手异构组选择了全定点推理的 FPGA 定制化方案，考虑业务场景、成本约束和算力限制，为达到最佳效果，在各个环节、各个层面针对性的解决问题和提出创新，如下表所示。