一行代码12倍加速Bert推理，OpenAI编程语言加持的引擎火了

项目作者表示，未来还将在预热速度、训练支持、多 GPU 支持、量化和硬件支持等多方面改进推理引擎 Kernl。

一行代码的威力到底有多大？今天我们要介绍的这个 Kernl 库，用户只需一行代码，在 GPU 上就能以快几倍的速度运行 Pytorch transformer 模型，从而极大的加快了模型的推理速度。

具体而言，有了 Kernl 的加持，Bert 的推理速度比 Hugging Face 基线快了 12 倍。这一成果主要得益于 Kernl 用新的 OpenAI 编程语言 Triton 和 TorchDynamo 编写了定制的 GPU 内核。项目作者来自 Lefebvre Sarrut。

以下是 Kernl 与其他推理引擎的比较，横坐标中括号里的数字分别表示 batch size、序列长度，纵坐标为推理加速情况。

基准测试在 3090 RTX GPU 运行，以及 12 核 Intel CPU。

内容中包含的图片若涉及版权问题，请及时与我们联系删除