近年大型语言模型 (LLM) 带来企业及大规模应用的全新契机。在私领域扩充并部署LLM推理服务,可能面临服务及算力扩充问题。有鉴于LLM推理服务普遍需要较大的GPU资源、又需满足各方非同步、长短不一的文本生成,更需要进行软件设计、代码实现和数据库等多方面的综合考虑和优化,进一步提升算力使用效率。
本次演讲将围绕以下内容展开:
🎯 NVIDIA LLM 容器化部署工具简介
🎯 结合Triton Inference Server及TensorRT-LLM优化您的 LLM 推理服务
🎯 结合PEFT模型搭配TensorRT-LLM扩展您的LLM推理服务
(报名后进群,领取PPT)
活动详情
大模型没那么“难”
扫码免费报名👇
评论
沙发等你来抢