2022年9月14日,由张江高科和全球领先的半导体产业智库芯谋研究共同主办的第十一期“芯片大家说I Say IC”产业沙龙在张江大厦举行。本次沙龙的重磅嘉宾是上海天数智芯半导体公司副董事长兼CTO吕坚平博士,演讲主题为《自主通用GPU落地拿订单要过哪几关?》。因疫情原因,本次活动首次采用线上直播互动方式,吸引了上千名观众观看。
吕坚平 上海天数智芯半导体有限公司副董事长兼CTO
吕坚平,拥有近30年芯片研发技术经验,是GPU及AI硬件方面的顶级专家,也是AI演算法理论先驱。1995年,吕坚平毕业于耶鲁大学并获计算机科学博士学位。至今已获得数十项GPU和机器学习的专利,拥有多次成功将产品推向商业化的落地经验。放眼全世界,是唯一两次成功带领交付全新GPU(在三星及联发科期间)的领导者。如今在天数智芯,吕坚平担任上海天数智芯半导体有限公司副董事长兼首席技术官。管理所有的工程团队,主导通用GPU产品的研发,在天数智芯首款全自研通用GPU云端训练芯片——“天垓芯片”的诞生过程中,吕坚平发挥了重要作用。
在演讲中,吕坚平博士提出GPU正引领进入万物皆可算的时代。无论是AI推理,渲染还是科学计算,最后都是大量的并行的乘加计算。GPU架构的特点是由众多的单指令多线程的计算单元组成,能够快速处理乘加运算。因此,从架构上看GPU与新兴计算完美匹配。AI算法创新等同于软件进步,没有适当配置的通用算力将穷于应付层出不穷的崭新算法,通用GPU是唯一被广泛采用开发新AI算法的软硬件平台。下一个AI架构赢家必定坚持通用。自主通用GPU企业想要落地拿订单,需要走过四大关卡。
第一关,在设计当初要决定是否要坚持通用。
吕坚平博士指出,通用GPU包含两个意义:一是在图形之外运用GPU的方式,二是不具备图形硬件的GPU(通用GPU加入图形加速功能之后,即成为GPU)。而GPU又包含“三重人格”:图形、AI和通用计算。其中,图形的趋势是持续走向通用,通用计算在追赶图形的效率,AI则是推动通用计算的最大动力。
“针对某些特定指标过度优化,会牺牲其他一些性能指标,而导致产品不够通用。这是GPU厂商需要决定的第一个问题。”吕坚平博士说。
在AI领域,无论是AI训练芯片还是AI推理芯片,都需要通用性。在训练侧,目前非通用GPU的AI训练芯片无法满足研发前沿AI算法的需求;无法顺利跑通AI学术大会层出不穷的新的算法和应用;非通用GPU的AI训练芯片落地出现困境。在推理侧,后摩尔时代,制作芯片耗时,耗资金,风险高,而为特定AI算法优化的专用推理芯片无法服务各行各业的细分领域;专用AI推理芯片不适用于算法多元的复杂场景(安防、自动驾驶),无法支持非AI算法。
天数智芯的天垓100是国内第一个7nm/2.5D高端芯片,也是目前唯一实现量产的AI训练通用GPU。吕坚平博士透露,天数智芯即将推出AI推理芯片智铠100。
第二关,如何确认真通用。
吕坚平博士认为,现在是一个“举世皆通用”的时代。通用GPU与AI的DSA芯片对AI的优化程度不分轩轾。AI DSA芯片也号称“通用”;“通用GPU”也未必坚持通用。
那么如何体现真通用呢?吕坚平博士给出四个评价标准:第一,开发易迁移;第二,性能可预期;第三,应用广覆盖;第四,全栈可定制。
天数智芯内部有一个确认真通用的方法。吕坚平博士介绍道,天数智芯甄选了百种算法,涵盖人工智能的各个领域,算法的代码基于开源社区,同时结合了落地场景,包括分类、分割、检测、科学计算、三维重建以及AI大会新鲜出炉的算法等,用以测试GPU产品是否真通用。
吕坚平博士提到,GPU的通用性不能只看性能与准确度,天数智芯制定了评价真通用的六大维度,包括性能、准确度、稳定性、线性度、能效比与显存占用。同时,针对不同算法的表现,给出可视化的集群性能分数评估。天数智芯将这套真通用评测体系命名为“DeepSpark”百大应用开放平台,即将在9月30日正式开源。
第三关,如何由真通用达到真量产。
吕坚平博士提到,要达到真量产需要有广泛的客户应用及全面的生态支持。以天数智芯为例,从算法框架、OS、服务器到CPU,都获得了全方面的生态支持。在算法框架上,天数智芯支持PyTorch、TensorFlow、飞桨、昇思等平台;在CPU领域,天数智芯覆盖了英特尔、AMD、飞腾、龙芯中科等国内外平台。
在行业应用上,想要达到真量产,通用GPU产品也需要覆盖场景多。安防、自动驾驶、工业/服务、医疗、教育、互联网、金融、零售、智能家居等应用领域,都有相应的数字化需求。天数智芯在数字孪生、体态识别、石油勘探、集群管理、病例分析和围棋AI等应用领域已有典型的商业落地案例。
吕坚平博士认为,产品的通用性水平越高,可获得市场空间就越大,客户也会越广泛。从设计、制造、实测到实现销售的产品周期中,技术成熟度与商业落地呈正向关系。目前,天数智芯的天垓100已累计触达用户超过300家,意向签约客户超过200家,业务覆盖行业超过20个,累计订单额度超2.3亿元。
第四关,如何持续落地拿订单。
对于硬科技公司来说,持续落地拿订单才是重点。在应用方面,元宇宙最近非常火热,吕坚平博士认为,GPU是未来元宇宙/数字孪生的基石,是通用GPU厂商持续拿订单的落地方向。
吕坚平博士表示,元宇宙会将人工智能带回到以人为本。元宇宙会带来四个社会趋势:城市智能化、载具无人化、工业自动化和娱乐置入化。技术潮流上将会有四大趋势,图形持续走向通用、AI与图形必然融合、图形人机界面必定移动、内容生成及图形渲染必在云端。
元宇宙可视、隐私、分布的三大要素的要求,需要厂商把GPU的三重人格(图形、AI和通用计算)进行融合。天数智芯认为,要把握这一市场机会,要遵循图形走向通用的潮流,以量产GPU为基础;支援云原生渲染,强化隐私计算,扩大集群管理;最终达成以人为本的元宇宙/数字孪生。
在路线上,天数智芯构建了完整的产品路线图。在天垓100的基础上,在规模集群,通用架构、AI应用以及AI渲染方面已经达到可以产品化的程度;天垓200将基于天垓100的技术,继续强大通用的算力,同时加上软件的渲染;天垓200也是为天垓300铺路,最终会加入硬件渲染。
“天数智芯会基于既有的产品路线规划,希望能够创新通用GPU,深耕应用与生态,开启算力新时代。”吕坚平博士说。
评论
沙发等你来抢