为实现更精准的投放,广告的计算需求在日益增长。以阿里妈妈信息流广告排序模型为例:在DIEN (Deep Interest Evolution Network) 基础上引入基于搜索范式的超长用户行为建模新方法,升级为SIM (Search-based user Interest Model) ;在SIM基础上引入交叉特征相关内容,升级为CAN (Co-Action Network) 。从DIEN到CAN模型,FLOPS增加3x,访存增加3x,输入规模增加4x(以上为粗略估计,具体增长与业务场景有关)。面对迅速增长的算力需求,我们打造了新一代广告深度学习计算引擎XDL-Blaze,算法-系统-硬件密切配合,充分利用硬件能力,掩盖硬件自身的弱点,实现性能目标(latency-bounded QPS)的最大化。

目录:

- 前沿

1. 算力需求与供给

1.1 算力需求:模型复杂度
1.2 算力供给:异构硬件计算能力
1.3 问题与优化方法

2. 算法-系统-硬件协同性能优化

2.1 算法优化
2.2 系统优化:以GPU优化为例
2.3 硬件升级:以含光NPU为例
2.4 性能结果

- 总结与展望