纯PyTorch语音工具包SpeechBrain开源

语音处理技术的进步，是人工智能改变大众的生活的重要一环。深度学习技术的兴起，也让这一领域近年来得到了长足的发展。在过往，该领域的主要方法是为不同的任务开发不同的工具包，对于使用者来说，学习各个工具包需要大量时间，还可能涉及到学习不同的编程语言，熟悉不同的代码风格和标准等。现在，这些任务大多可以用深度学习技术来实现。

此前，开发者常用的语音工具有 Kaldi、ESPNet、CMU Sphinx、HTK 等，它们各有各的不足之处。以 Kaldi 为例，它依赖大量的脚本语言，而且核心算法使用 C++ 编写，再加上可能需要改变各种神经网络的结构。即便是拥有丰富经验的工程师，在调试的时候也会经历巨大的痛苦。

秉承着让语音开发者更轻松的原则，Yoshua Bengio 团队成员 Mirco Ravanelli 等人曾经开发了一个试图继承 Kaldi 的效率和 PyTorch 的灵活性的开源框架——PyTorch-Kaldi，但据开发成员本人认为「还不够完善」。

所以，在一年多前， Mirco Ravanelli 宣布要打造一款新的一体化语音工具包 SpeechBrain。该项目于近日正式开源，鉴于上述背景，SpeechBrain 诞生的主要宗旨是：够简单、够灵活、对用户友好。

项目地址：https://github.com/speechbrain/speechbrain

内容中包含的图片若涉及版权问题，请及时与我们联系删除

纯PyTorch语音工具包SpeechBrain开源

评论列表

评论