近年大型语言模型 (LLM) 带来企业及大规模应用的全新契机。在私领域扩充并部署LLM推理服务,可能面临服务及算力扩充问题。有鉴于LLM推理服务普遍需要较大的GPU资源、又需满足各方非同步、长短不一的文本生成,更需要进行软件设计、代码实现和数据库等多方面的综合考虑和优化,进一步提升算力使用效率。


本次演讲将围绕以下内容展开

🎯 NVIDIA LLM 容器化部署工具简介

🎯 结合Triton Inference Server及TensorRT-LLM优化您的 LLM 推理服务

🎯 结合PEFT模型搭配TensorRT-LLM扩展您的LLM推理服务


欢迎感兴趣的各位小伙伴扫码免费报名观看直播【报名】即可免费领取专题PPT《大模型微调与部署实践》👇

(报名后进群,领取PPT)


活动详情


大模型没那么“难”




扫码免费报名👇


(报名后进群,会后领取PPT)