2020年中国互联网广告市场规模达5292亿元,根据秒针《2020中国异常流量报告》显示,异常流量占比约8.6%。作为全球顶级广告平台,阿里妈妈坐拥价值逾千亿的商业流量,是黑灰产觊觎的主要目标。风控团队的核心工作之一,就是甄别其中作弊、低质量的部分,保护广告主和平台的利益。

下图是广告主投放内容与风控团队、下游业务团队的简易交互流程。广告素材通过内容风控审核后,即可以在线上进行展示。在展示期间,广告主可能会主动作弊、也可能受到其他广告主攻击。风控团队需要对无效流量进行过滤,保护广告主的利益,维护健康的广告投放环境。本文重点介绍在线展示期间,流量、淘客交易场景下的业务风险与算法体系。详细的解决方案在未来的文章中逐一介绍。
流量反作弊系统的核心能力就是清洗、过滤无效流量。但是无效流量并不等价于作弊流量。我们将这部分流量的定义分为2个层面:

1)低质量:重复点击计费策略、频率控制策略、剧烈波动策略等;

2)作弊:转化效果概率为0的流量。

常见的无效流量包括:1)消耗竞争对手;2)提升自身排名;3)自然宝贝刷单误伤广告主;4)非恶意无效流量。
相比于其他正向业务,流量反作弊对于精度的要求尤其高。多过滤导致平台收益减少、少过滤引起广告主投诉,破坏投放生态。而且业务场景对实时返款的诉求越来越强烈,同时作弊对抗升级,从集中式、大规模转向分布式、稀疏化攻击,识别难度增大。亟需基于高维异常检查的新系统能力。为此,我们建立了集异常主动感知、人工洞察分析、自动处置过滤、客观评价高效循环一体的风控系统。

高维数据下的异常检测、大规模图学习、机器学习可解释性、数据可视化方法等,都是我们的重点研究方向。在我们看来,风控可能是当前机器学习领域,对算法鲁棒性和解释性要求最高、精度要求最极致、系统规模和时效性挑战最大、最能用钱衡量的工业级业务。这就需要我们具备卓越的业务数据洞察能力、工程架构能力,让研究成果转换成坚实的工业级解决方案。

本文重点介绍了我们在流量反作弊场景下所遇到的问题,以及相应的解决方案。希望通过这篇文章,可以让读者理解我们在流量反作弊领域所遇到的问题,以及解决问题的思路。

内容中包含的图片若涉及版权问题,请及时与我们联系删除