

导读 本次分享题目为腾讯 PCG 数据治理体系。
数据治理的概况和解法
- 数据量大且复杂。每天大概有万亿级别的数据增量,而且数据的格式多样化,覆盖文本、图文、长短视频与语音等各种结构化、非结构化数据。 
- 数据技术架构复杂。腾讯内部有多个业务,每个业务又有很多产品线,每个产品线用的技术架构又不尽相同。调度系统有用 Venus 的,也有用 US 的;数据治理脚本开发有用 pySQL 或 pySpark 的,也有用 Hive 的,还有用内部 SQL 脚本的。 

- 管理层。作为业务负责人,需要控制成本、减少浪费,需要持续关注成本的变化,对未来做预估。为了把成本压下来,需要跟团队开很多次会议,定目标、过进展、报风险。但由于缺乏数据的深度治理和挖掘,以及数据治理平台,对数据治理任务的选择,难易、风险评估等,缺少定性、定量的方法。 
- 数据管理者。作为一线数据 leader,定下了目标,怎么定策略、如何推进,也有难度。对于数据治理的整体链路,各个结点(如埋点、传输、计算等)的情况,也缺少及时准确的信息。数据治理任务推进困难。 
- 一线数据人。作为数据生产者,每天需求已经很多了,还要关注老板定的成本目标。不断地分析哪里可优化,性能满不满足要求,如何优化。简单的治理可以做,复杂的涉及面广的就难以实施。 

- 帮助管理者看清楚大盘,了解资源利用率,发现治理机会; 
- 辅助管理者去制定治理策略,并向相关人员推送,推进执行; 
- 对数据治理的效果进行复盘,并辅助管理者推进迭代和优化,将运动式治理变成常态化治理。 
- 治理能力参差不齐,治理门槛相对较高; 
- 降本提效背景下,需要高效完成治理; 
- 个人治理效果难衡量,治理积极性差。 

- 资产盘点:比如通过对各组织的中间件、存储、队列等,提供各种维度下的资产详情,来帮助管理者看清楚资产的分布,进而辅助他进行下一步的治理。 
- 基于元仓建设,我们抽象出很多治理策略来提供治理服务。 

- 第一步,实现治理工具化。比如,先盘点所有离线表资产情况,然后生成治理项并制定治理方案,再将方案发给数据 owner 进行执行,最后对治理效果进行复盘,最后再重复这个流程。 
- 第二步,大数据全链路治理。对于一些中间环节,第一步已成功,就可以对其它治理对象应用这个模式。我们最早做的数据表,后面对整个数据生产链路里面的每一个环节,包括埋点上报、数仓加工、对外服务整个流程里的中间节点,都按照这个模式进行治理。如,埋点这里的治理项包括:参数空值率、参数异常率、事件重复率、事件丢失率等,并最终形成资产分。 
- 第三步,业务自定义治理。通过支持个性化治理,提升产品通用性。 
腾讯 PCG 元仓建设:专注特征挖掘、构建治理引擎基石
- 全链路的数据整合清洗 
- 全链路的血缘构建 
- 基于血缘数据的治理特征挖掘 

1. 资源整合
2. 全链路实时血缘


- SuperSQL,腾讯内部的查询语句,屏蔽了多种常用 SQL 之间的差异性,使用 Calcite 定制解析; 
- Thive,为了解决早期版本的性能问题内部定制的 Hive 版本,定制化 Antlr3 解析; 
- Hive,原生 Antlr3/4 解析; 
- Spark 脚本,主要指 Spark SQL,Antlr4 解析。 
- 实体,是指 SQL 读了哪些表,有哪些字段; 
- 逻辑,是指表之间是如何关联,字段如何筛选,加工逻辑是什么,以及针对 UDF 定义的关系; 
- 模型,主要是从语义层面分析,这个 SQL 是干什么的。 
3. 治理特征挖掘

- 表热度。可以用三种不同的原数据,一是查看表是否被任务调度系统的任务使用;二是这个表有没有被临时查询,是否经常被使用;三是扫描表底层文件的读取,是否被使用。通过这些数据,计算出表热度,并根据表热度生成一系列的治理项。 
- 字段热度。同样的,根据血缘模块直接生成。 
资产分体系:开放、可持续迭代的资产分体系

- 规范分。包括命名规范:是否遵循标准的市场分层,是否有业务语义等;注释规范;依赖规范等。 
- 成本分。包括计算成本和存储成本。 
- 安全分。包括归属合规:是否存在有离职或者转岗的同学,或者权限不合格的情况;安全等级;敏感字段加固:有没有敏感字段直接是裸数据。 
- 质量分。 
- 应用分。 
2. 特征工程&扣分规则

3. 引入规则引擎、低 ETL 代码
- 直接特征:经过复杂算法加工出来的定性的结论。如是否存在跨层依赖,是否重复计算; 
- 间接特征:可供进一步挖掘的特征。比如:近 XX 天无人访问,队列使用率 X% 等。 

- 通过将各治理项归属到资产分的五个分类里,可以得出整个资产分的值。 
- 通过标准化治理分层,利用中间层,将产品方案和前端元数据解耦;也就是对于其它公司,若已有元仓,只需要将这些特征灌到治理中间层,不需任何改动,就可以直接生成一套数据。 
4. 治理引擎数据全流程

治理工作台:一站式治理平台
1. 看清业务资产及成本现状
 从管理员的视角,按 HR 系统的架构,进行资产归属,将所有数据归属到个人,方便管理。并看清当前业务的资产现状,资产分,资产率,以及资源的明细。通过这些,来帮助管理层发现大数据的问题及治理机会。
从管理员的视角,按 HR 系统的架构,进行资产归属,将所有数据归属到个人,方便管理。并看清当前业务的资产现状,资产分,资产率,以及资源的明细。通过这些,来帮助管理层发现大数据的问题及治理机会。2. 管理者制定治理方案

3. 数据 Owner 执行治理

4. 治理效果复盘

以上就是本次分享的内容,谢谢大家。


分享嘉宾
INTRODUCTION

大鱼

腾讯

T11数据工程师

2019/03-2022/03:蚂蚁金服/大数据部/高级数据技术专家。蚂蚁流量效能实时数据团队负责人,负责整个蚂蚁实时流量、营销、商家、搜索推荐实时数据建设;数字金融线平台流量负责人,负责余额宝、基金、定期、内容离线以及实时数据体系建设;构建全蚂蚁的流量归因解决方案;负责推进数仓工具栈(元数据、DQC、血缘)在实时开发平台落地,以及实施任务的治理工作。
2022/03-至今:腾讯 PCG/大数据平台部/数据工程 T11工程师。负责 PCG 元数据建设(链路、血缘、热度、成本等);构建治理引擎(资产分体系、治理引擎);构建大数据开发相关套件。

限时免费资料


往期优质文章推荐
往期推荐
点个在看你最好看

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢