LLM部署优化——如何基于TensorRT-LLM 提升LLM算力使用效率？

近年大型语言模型 (LLM) 带来企业及大规模应用的全新契机。在私领域扩充并部署LLM推理服务，可能面临服务及算力扩充问题。有鉴于LLM推理服务普遍需要较大的GPU资源、又需满足各方非同步、长短不一的文本生成，更需要进行软件设计、代码实现和数据库等多方面的综合考虑和优化，进一步提升算力使用效率。

本次演讲将围绕以下内容展开：

🎯 NVIDIA LLM 容器化部署工具简介

🎯 结合Triton Inference Server及TensorRT-LLM优化您的 LLM 推理服务

🎯 结合PEFT模型搭配TensorRT-LLM扩展您的LLM推理服务

欢迎感兴趣的各位小伙伴扫码免费报名观看直播，【报名】即可免费领取专题PPT《大模型微调与部署实践》👇

（报名后进群，领取PPT）

活动详情

大模型没那么“难”

扫码免费报名👇

（报名后进群，会后领取PPT）

内容中包含的图片若涉及版权问题，请及时与我们联系删除