
在大模型(LLM)的推理服务中,提高算力利用效率是一个关键而复杂的任务。在本期「NVIDIA大模型日之大模型没那么难」主题活动中,来自NVIDIA的资深解决方案工程师杜承翰老师,将为我们带来大模型的部署优化经验,通过结合Triton Inference Server及TensorRT-LLM优化 LLM 推理服务,通过结合 PEFT 模型搭配 TensorRT-LLM 扩展 LLM 推理服务。

(报名后进群,领取讲师PPT)

活动详情

大模型没那么“难”
扫码免费报名👇

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢