大模型，小算力：揭开NVIDIA大模型推理服务优化的秘密

在大模型(LLM)的推理服务中，提高算力利用效率是一个关键而复杂的任务。在本期「NVIDIA大模型日之大模型没那么难」主题活动中，来自NVIDIA的资深解决方案工程师杜承翰老师，将为我们带来大模型的部署优化经验，通过结合Triton Inference Server及TensorRT-LLM优化 LLM 推理服务，通过结合 PEFT 模型搭配 TensorRT-LLM 扩展 LLM 推理服务。

欢迎感兴趣的各位小伙伴扫码免费报名观看直播，【报名】即可免费领取专题PPT《大模型微调与部署实践》。另外，邀请【2】位好友报名参会，还可领取独家电子书《英伟达Data+AI训练推理与加速实践》👇

（报名后进群，领取讲师PPT）

活动详情

大模型没那么“难”

扫码免费报名👇

（报名后进群，会后领取讲师PPT）

内容中包含的图片若涉及版权问题，请及时与我们联系删除

大模型，小算力：揭开NVIDIA大模型推理服务优化的秘密

评论列表

评论