英伟达PyTorch优化神器TensorRT重磅更新！10亿参数大模型实时运行，GPT推理加速21倍

12月2日，英伟达发布了最新的TensorRT 8.2版本，对10亿级参数模型进行了优化，让实时运行NLP应用成为可能。与原始PyTorch模型相比，TensorRT可以将T5、GPT-2的延迟降低9到21倍。

Torch-TensorRT：6倍加速

TensorRT是一个高性能的深度学习推理优化器，让AI应用拥有低延迟、高吞吐量的推理能力。

新的TensorRT框架为PyTorch和TensorFlow提供了简单的API，带来强大的FP16和INT8优化功能。

只需一行代码，调用一个简单的API，模型在NVIDIA GPU上就能实现高达6倍的性能提升。

内容中包含的图片若涉及版权问题，请及时与我们联系删除