12月2日,英伟达发布了最新的TensorRT 8.2版本,对10亿级参数模型进行了优化,让实时运行NLP应用成为可能。与原始PyTorch模型相比,TensorRT可以将T5、GPT-2的延迟降低9到21倍。

Torch-TensorRT:6倍加速
TensorRT是一个高性能的深度学习推理优化器,让AI应用拥有低延迟、高吞吐量的推理能力。
 
新的TensorRT框架为PyTorch和TensorFlow提供了简单的API,带来强大的FP16和INT8优化功能。
 
只需一行代码,调用一个简单的API,模型在NVIDIA GPU上就能实现高达6倍的性能提升。
 

内容中包含的图片若涉及版权问题,请及时与我们联系删除