如何降低大模型推理成本？

李曦鹏英伟达开发与技术部亚太区总经理

个人介绍：李曦鹏，NVIDIA 开发与技术部门亚太区总经理，博士毕业于中国科学院过程工程研究所。长期从事 GPU 加速计算，工业应用端到端优化加速。带领团队支持了国内外各行业头部企业人工智能和加速计算的大规模部署，团队开发有 Merlin-HugeCTR，Faster-Transformer， CV-CUDA 等加速计算开源产品。

演讲题目：LLM时代的模型推理引擎

演讲提纲：LLM时代对于模型的推理部署提出了全新的挑战，从推理架构、成本和用户体验，都和传统的AI模型推理不同。推理优化不但关系部署成本，更关系到LLM下一个创新。本演讲介绍TensorRT-LLM及其中的各个优化、调度、量化技术，帮助大家高效部署LLM模型。

听众收益：

1. 如何降低LLM推理成本

2. TensorRT-LLM

3. 量化

扫码报名参加大会

点击『阅读原文』，报名参加大会！

内容中包含的图片若涉及版权问题，请及时与我们联系删除

如何降低大模型推理成本？

评论列表

评论