
由智源社区举办的「智源LIVE 第21期 | 可控成本下的百亿级大模型线上推理 」将于3月30日(周三)19:30-20:30举办,网易资深深度学习研发工程师,李恭政作主旨报告,将介绍网易伏羲在GPT-3模型上的性能优化、显存压缩、模型量化等方面的技术进展。
报告摘要:基于GPT-3的超大模型在算法性能上有着惊艳的表现,但其推理时的庞大显存和密集计算使得其无法满足生产环境下的高吞吐、低延迟、低成本需求,因此,研究生产环境可容忍的大模型推理技术十分必要。网易开源的Easy and Efficient Transformer 可以实现在24G显存的中低端NVIDIA Ampere架构上推理110亿超大模型,且百字推理时间仅需2秒,基于该技术,网易在内部的多条业务线上实现了百亿级模型的线上推理。本次分享将介绍网易伏羲在GPT-3模型上的性能优化、显存压缩、模型量化等方面的技术进展。
考虑到讲者报告时间有限,欢迎智源社区用户在本贴评论区留言,官方会邀请嘉宾和讲者回复,详情如下:
格式:xx好,我想请问xxx问题;
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢