DataFun将于10月28日9:00-17:00举办DataFunSummit2023:现代数据栈技术峰会,欢迎广大从业者参与交流。郭炜 白鲸开源 CEO,Apache Member个人介绍:白鲸开源 CEO,Apache 基金会成员, Apache 孵化器导师,ClickHouse 华人社区创始人, Apache Dolphin Scheduler PMC, Apache SeaTunnel 导师。郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,中国计算协会开源发展委员会委员,TGO鲲鹏会北京分会会长。郭炜先生曾任易观CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,Presto, Alluxio,Hbase等,是国内开源社区领军人物。李潇 Databricks 工程总监、Apache Spark Committer & PMC个人介绍:李潇,Databricks 工程总监、Apache Spark Committer 和 PMC 成员。他领导和管理七个团队,负责开发 Apache Spark、Databricks Runtime 和 DB SQL。他的主要兴趣是数据湖仓、数据复制和数据集成。此前,他是 IBM Master Inventor 荣誉的获得者,也是数据库异步复制和一致性验证方面的专家。他于 2011 年在佛罗里达大学获得博士学位。个人介绍:曾任职于阿里巴巴,在大数据领域有10年的研发经验,包括大数据基础架构,数据平台产品等,目前专注于数据中台相关领域与商业化能力的探索与实践。个人介绍:毕业于北京大学,北京快用云科技术有限公司联合创始人。大数据独角兽企业 TalkingData 早期创始团队成员,历任研发副总裁、CTO 等职位。在 TalkingData 之前,在 IBM,Oracle 等国际知名企业担任资深架构师等资深技术职位。
扫码免费报名观看
大规模数据查询与分析论坛

个人介绍:快手资深大数据专家,11年大数据研发管理经验。在快手依次负责公司上市项目、电商基建数据团队、电商C端数据团队的搭建与管理,在数据的采建管用等方面有丰富经验。个人介绍:快手大数据应用技术负责人,拥有10年+的大数据平台及数据中台的研发经验,在快手带队负责构建了高效、稳定、安全的万亿级数据的数据中台服务,在数据驱动增长、埋点数据治理、高效数据分析方向有深厚的积累和经验。在万亿级数据下用户行为分析平台建设面临的挑战以及最佳实践,可以学习到如下内容:个人介绍:车赛光,Alluxio解决方案架构师,具有大数据领域十多年研发和解决方案的丰富经验。对数据从采集、处理、分析全链路到整个数据平台建设都有深入洞见。加入Alluxio之前,曾在硅谷Conviva公司负责研发、管理、售前等诸多重要工作。演讲题目:Alluxio SDK 在 Presto/Trino 中的应用2. 以Alluxio SDK为基础的客户端缓存的工作原理听众收益:了解最新的Alluxio SDK为基础的客户端缓存原理和收益个人介绍:快手分析平台开发工程师,在快手从事分析产品研发与性能优化工作,加入快手前从事数据服务化和大数据二次开发工作。在大数据和BI领域有较为丰富的开发和实践经验。演讲提纲:本次分享介绍快手分析平台在大数据场景下查询性能面临的挑战与性能优化实践。2. 分析产品在大数据场景下查询性能遇到的困难与挑战个人介绍:毕业于武汉科技大学,先后就职于深圳市同洲电子股份有限公司、武汉安天信息技术有限责任公司和小米科技(武汉)有限公司,此前主要负责基于 Hadoop 的大数据平台的开发和维护,主要是 Hive 和 Spark 相关的工作,目前在小米负责 OLAP 引擎 Trino 的开发和维护。演讲题目:OLAP 引擎 Trino 在小米的实践演讲提纲:主要介绍 OLAP 引擎 Trino 在小米的一些实践经验,Trino 在小米的发展历程,在整体架构上的定位,以及小米内部的一些主要工作,包括动态 Catalog 和 UDF 的加载、集群高可用性、Iceberg 数据湖查询性能优化、与 SparkSQL 兼容性问题的处理、集成测试的构建等等。2. 如何处理 Trino 和 SparkSQL 的语法不兼容?3. Trino on Iceberg 有哪些问题需要注意?嘉宾信息:MatrixOne存储引擎开发工程师。曾从事分布式存储和存储引擎工作。曾任职安超云存储产品ArStor的资深开发工程师。目前负责MatrixOne Layout层的研发。演讲提纲:MatrixOne 是一款新型超融合异构云原生数据库管理系统,通过全新设计研发的统一分布式数据库引擎,能够同时灵活支持 OLTP、OLAP、Streaming 等不同工作负载的数据管理和应用。此次演讲将探讨 MatrixOne 存储设计的初衷,数据结构解析,如何保证性能、数据兼容性的以及 MatrixOne 的应用场景。
扫码免费报名观看
海量数据采集与集成论坛

出品人:乔超 火山引擎 DataSail 资深架构师个人介绍:10+大数据经验,任职于京东、阿里,多年百万亿级海量数据的数据采集和集成经验,目前致力于打造字节全域数据集成 DataSail 产品。李畅 字节跳动 大数据工程师
个人介绍:专注大规模数据的分布式计算和传输领域,提供高效、可靠的全域数据集成解决方案;开源社区爱好者,BitSail开源项目负责人之一。
演讲题目:字节跳动数据集成引擎BitSail开源架构演进和实践
演讲提纲:随着大数据生态的快速发展,如何高效、稳定的实现异构数据源之间进行数据同步,已经成为了企业面临一大问题。BitSail 是字节跳动开源的一款基于分布式架构的高性能数据集成引擎,支持异构数据源间海量数据同步。在技术架构上,提供流批一体、数仓一体的数据处理能力,并完美兼容Hadoop生态,通过一套架构支撑批式、流式、增量场景下的数据同步。本次分享会聚焦BitSail架构演进和实践,并带来很多新的特性,例如EtLT架构、CDC整库同步、自动化测试引擎等,期待大家的共同参与,一起完善数据集成生态。
1. BitSail 背景介绍
2. BitSail 新功能介绍
3. BitSail CDC解决方案
4. 未来展望
听众收益:
1. 了解开源数据集成引擎功能特点
2. 如何使用好一款开源数据集成引擎
余俊 Aloudata大应科技 技术副总裁
个人介绍:Aloudata 合伙人 & 技术副总裁余俊,拥有 18 年互联网技术和大数据平台相关架构经验。作为主架构师及核心研发主导并完成了 Alibaba B2B 首个海量分布式 KV 存储系统,作为网站架构师负责 Aliexpress 全球买全球卖交易系统的第一代架构设计。曾任蚂蚁集团大数据研发平台技术负责人。从零开始主导完成蚂蚁第一和第二代数据研发平台产品体系的建设,涵盖数据集成、研发、运维、质量基线及资产平台等完整数据研发平台产品体系,支撑蚂蚁数以千计的 ETL 研发工程师,搭建了蚂蚁面向金融行业的逻辑化智能数据研发平台,有丰富的海量数据及智能化数仓的落地实践经验。
演讲题目:Data Fabric 在数据集成场景的实践
演讲提纲:
1. 什么是 Data Fabric?Data Fabric 可以解决什么问题?
2. 数据虚拟化落地实践
3. 基于虚拟化技术的逻辑数据平台同传统解决方案的差异
听众收益:
1. 了解 Data Fabric 及数据虚拟化在实际场景的应用。
2. 逻辑数仓的业务价值和技术挑战
演讲题目:建设企业统一的数据集成平台,实现数据传输可视,可控,可回溯个人介绍:从事大数据领域开发10年,对大数据组件有深入的了解及落地经验,spark、flink-cdc的contributer。演讲题目:基于Flink on K8s的数据集成实践刘波 滴普科技 FastData 产品线 DataFacts 产品负责人
个人介绍:刘波,滴普科技FastData产品线DataFacts产品负责人,从事大数据开发10年+,在滴普科技负责30+个数据项目的架构设计与落地,先后主导了TOP级新零售企业的数据智能平台与互联网医疗企业的数据湖建设,目前负责一站式数据智能开发与治理平台的研发工作,聚焦湖仓一体和流批一体的架构设计及实践。
演讲题目:滴普科技数据集成产品 FastData DCT 架构演进与实践
演讲提纲:
1. 产品概述
2. 功能介绍
3. 技术架构演进
4. 应用场景
5. 成功案例(百丽、中石油)
听众收益:
1. 了解 Data Fabric
2. 通过 Flink CDC 实现批流一体海量数据采集
3. 数据集成产品的设计思路与实践
莫云卿 腾讯 高级大数据工程师
个人介绍:腾讯高级大数据工程师,腾讯云InLong奠基人,Apache InLong PMC。
演讲主题:腾讯云 Inlong 实时集成应用与实践
扫码免费报名观看数据仓库论坛

个人介绍:毕业于浙江大学。在互联网大数据领域有13年工作经验,先后就职于阿里巴巴和腾讯,是最早阿里onedata体系参与者与建立者。曾负责阿里本地生活数据研发团队,蚂蚁大数据部数字金融线(花呗,借呗,理财,保险,芝麻信用等)数据团队,腾讯 PCG 数据治理团队,有多年业务数据、业务数据中台、数据中台治理等经验,目前为腾讯数据专家。个人介绍:十三年数据行业工作经历,曾就职于多家大型互联网公司,一直深耕数据体系建设领域,尤其擅长DW架构与维度模型的设计。目前就职于OPPO,先后负责广告业务、应用分发业务(软件商店、游戏)的数据内容建设及数据分析。演讲提纲:一套抽象得极其通用、极致维度退化、指标口径统一的数据仓库模型;一张几百个字段、几千亿记录数、秒级出数据的报表,非常宽非常全非常多还非常快,这就是维度建模与多维分析设计的魅力。主要内容包括:3. 如何建设多维分析体系以极大减少取数与报表需求?个人介绍:毕业于南京大学,专注于大数据处理分析系统的研发。目前致力于读时建模数据系统查询引擎的开发工作。演讲题目:使用Apache Arrow快速构建现代数据系统演讲提纲:数据系统有着专用化的发展趋势,用于特定领域的新型数据系统层出不穷,能够快速、高效构建现代数据系统成为一个关键问题。本次演讲会介绍新一代列式内存格式Apache Arrow,并分享使用Apache Arrow构建读时建模数据系统的实践。1.了解Apache Arrow作为通用列式内存标准的关键特性2.了解Apache Arrow用于构建现代数据系统的实践个人介绍:马年圣,毕业于河海大学,先后就职于网易、阿里、蚂蚁等互联网公司,当前工作重心在实时数据研发和架构,负责蚂蚁集团广告、决策等领域实时数据。演讲提纲:实时数据在互联网公司中扮演的角色越来越重要,从最开始的实时数据大屏,发展到现在算法、工程级的应用数据,如何高效稳定的构建实时数仓来支撑业务的发展,是实时数据架构一直探索演进的命题,本次演讲将围绕如下几个模块来介绍本人在实时数仓领域的实践与思考。具体包括:3. 针对实时计算难题的多种解决方案(如关联类问题、长周期问题等)惠明 腾讯 在线视频数据科学部 Tech Leader个人介绍:北京邮电大学硕士,先后在优酷,美团,腾讯有过10多年的数据仓库、治理和工具建设经验。个人介绍:美团、腾讯、字节10年+数据仓库经验,5年+业务数据团队管理经验,目前在字节负责业务安全数据仓库建设。演讲提纲:
1. 数仓的复杂度
2. 软件设计原则在数仓应用
3. 数仓加工元模型
听众收益:对数仓复杂度的来源有进一步的认知,提供一种新的思路用户数仓设计。
个人介绍:赵司臣,ClickHouse Data Plane Infrastructure组工程师。他当下专注于基础架构与ClickHouse Cloud研发。他的主要兴趣是分析型数据库,云服务系统和ML engineering的结合。此前,他是AWS资深工程师,帮助构建了AWS RDS,AWS Kendra服务。演讲题目:云上的实时数仓 - ClickHouse云原生新特性技术解析演讲提纲:ClickHouse是用于实时应用和分析的最快和资源效率最高的数据库,是实时数仓领域的代表产品和行业领先技术栈。MergeTree表引擎系列中的表是ClickHouse快速数据处理能力的核心组件。我们将在这里详细介绍MergeTree家族的新成员SharedMergeTree,这是ClickHouse在云原生方向的重要里程碑也是ClickHouse在中国阿里云上落地的重磅商业特性。冯成林 蚂蚁集团 高级数据方案专家
个人介绍:近十年蚂蚁安全领域的工作经历,主要从事面向智能风控的数据建模、架构及产品方案的工作。
演讲题目:大宗产业风控领域的数据探索与实践
演讲提纲:基于大宗商品行业场景,从风控视角探索大数据的应用,重点介绍蚁盾安全科技服务大宗产业客户的落地实践。
听众收益:
1. 大宗商品行业风控的特点
2. 数字化在大宗传统产业的应用
3. 行业的非标性对数据应用的挑战
宋志毅 网易云音乐 资深数据开发工程师
个人介绍:北京邮电大学本科、硕士毕业,加入网易云音乐7年,负责数据仓库内容生态数据体系建设,服务于toC和toB场景,同时负责数据仓库数据治理工作。
演讲题目:网易云音乐用户行为归因数据体系建设
演讲提纲:
1. 用户行为归因面临的问题,主要介绍归因的业务背景,上一阶段的做法和存在的问题
2. 归因数据体系建设当前的解决方案,主要包括埋点、模型、平台三个方面
3. 未来的规划
听众收益:
1. 归因分析主要从哪些方面来做?
2. 如何做数据建设支持复杂多样的归因分析?
3. 如何将归因的技术手段和业务知识结合?
4. 归因实现如何做到高效、统一?
扫码免费报名观看数据治理与资产管理论坛

个人介绍:刘超,硕士毕业于南京信息工程大学,一直从事数据领域相关工作。2018年加入滴滴。目前负责滴滴大数据治理的相关工作。通过持续地推动技术&产品能力建设,对滴滴大数据的数据引擎(hadoop、es、flink、olap等)&数据产品,进行全域治理。近期的工作重心为成本治理、安全治理两个方向。个人介绍:四川大学计算机硕士毕业,先后加入百度、阿里、华为、滴滴等互联网公司,从事大数据相关工作,有丰富的大数据处理、大数据治理等经验。演讲提纲:主要分享滴滴内部如何做数据资产治理,主要内容包括:1. 针对Hadoop存储及计算治理如何设计治理项?彭欢 蚂蚁集团 资深数据研发专家
个人介绍:14年大数据领域工作经验,先后在新浪、百度、蚂蚁任职。2014年加入蚂蚁集团,期间负责了金融线数据仓库和蚂蚁大数据治理体系的建设,最近3年重点围绕大数据的质量风险、成本治理、安全合规进行探索与实践。
演讲题目:蚂蚁集团 EB 级大数据治理架构与实践
演讲提纲:随着蚂蚁业务的快速发展,数据已经贯穿于每个业务场景,我们的大数据任务和服务也出现井喷式的增长,当前在蚂蚁大数据平台中,存储规模已经达到EB级、有数十万以上的数据调度任务、有3000+用户直接参与到数据开发过程中。在如此庞大且快速增长的数据规模下,加上蚂蚁金融业务对数据的强依赖和苛刻性要求,对蚂蚁数据治理体系的建设都带来非常大的挑战。
听众收益:本次分享将会和大家一起交流蚂蚁集团在EB级数据规模下的数据治理架构与实践,重点阐述在数据资产架构、数据成本治理、数据质量保障等领域沉淀的多层次治理经验。
陈龙 腾讯 数据资产服务负责人
个人介绍:腾讯游戏大数据平台部数据资产负责人,2007年加入腾讯,负责腾讯游戏大数据实时离线数据资产建设和团队管理。目前专注于数据治理系统的建设和数据资产价值应用挖掘工作。
演讲题目:腾讯游戏数据治理最佳实践
演讲提纲:
1. 腾讯游戏数据治理背景
2. 资产化建设与应用
3. 数据质量/成本/安全建设
4. 未来方向探索
听众收益:介绍腾讯游戏数据治理平台建设思想和技术方案,阐述数据治理建设落地实践,给听众提供详细的实现和技术架构参考方案。
扫码免费报名观看DataOps论坛

出品人:马欢 DAMA数据管理社区 主理人,全球数据要素50人论坛专家个人介绍:《DAMA数据管理知识体系》《首席数据官管理手册》《DataOps实践手册》等数据领域畅销书的主译者,数据管理专家,CDMP。郭炜 白鲸开源 CEO,Apache Software Foundation
个人介绍:郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,中国软件行业协会智能应用服务分会副主任委员,全球中小企业创业联合会副会长,TGO鲲鹏会北京分会会长,ApacheCon Asia DataOps论坛主席,波兰DataOps峰会、北美Big Data Day演讲嘉宾,虎啸十年 杰出数字技术人物,中国开源社区最佳33人,中国2021年开源杰出人物。郭炜先生曾任易观CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,Presto, Alluxio,Hbase等,是国内开源社区领军人物。
演讲题目:大模型时代下的 DataOps & DataFabric
演讲提纲:大模型时代来临,对于DataOps领域产生了哪些影响?哪些Ops流程可以利用大模型来自动化解决?而大模型出现之后,又对DataOps和DataFabric产生了哪些影响?
1. DataOps如何提高大模型训练效率与质量
2. 大模型促进DataFabric智能化落地
3. 未来企业大模型+大数据架构与研发模式
听众收益:
1.大模型时代来临,对于DataOps领域产生了哪些影响?
2. 哪些Ops流程可以利用大模型来自动化解决?而大模型出现之后,DataFabric是否可以从概念落地。
3. 如何使用大模型解决DataOps和DataFabric的问题?有什么时间经验?
个人介绍:1998年本科毕业于北京理工大学,2005年获得复旦大学工程硕士学位,2019年10月加入联通数字科技有限公司数据智能事业部(原联通大数据有限公司),任职专业总监,主要负责联通数一体化数据资产管理平台产品研发、对外交付和数据治理实施。具备20年以上政府、大型国企、外资企业的信息系统、数据中心、大数据项目规划、数据治理项目实施工作经验,10年以上微软、联想等世界500强企业工作经历,服务过包括国家税务总局、索尼(中国)、联想集团、国家统计局、上海世博会、上汽集团、国泰君安、海通证券、中体彩等大型客户。聚焦于大数据及数据治理相关行业,具备多年政企、智慧城市、金融、企业等行业数据治理项目平台交付与实施经验,在多个省部级政府项目和大型企业项目中负责数据湖仓规划、数据治理、数据开发与服务等工作,交付省部地市各级政务类大数据平台及数据治理项目50余个,对企业级数据仓库规划与治理有着深刻理解。擅长DCMM评估、DAMA管理体系、数据治理规划、大数据平台数据治理、研发与交付等方面的咨询及实施。演讲题目:DataOps在联通数科的实践 构建数据研发治理运营一体化能力个人介绍:历任平安/百姓网/Talkingdata架构师/TL,目前在深擎负责SaaS技术团队及数据平台的建设。敬畏达尔文文化,相信跨界的力量。2. 基于 Dolphinscheduler 的业务编排方案2. Dolphinscheduler 上如何增加业务算子编排能力?3. 了解复杂业务场景下业务算子编排如何提效数据开发?李成强 阿里巴巴 技术服务专家
个人介绍:13年数据平台实施经验,先后就职于Teradata、阿里巴巴,以架构师角色支持过零售企业、电信行业、金融企业、烟草行业等企业数据平台架构设计和系统建设,专注于架构设计、数据中台实施、阿里云产品解决方案建设。
演讲题目:阿里云 DataOps 数据运营中心实践
演讲提纲:通过阿里云数据运营中心的。
听众收益:
1. 数据运营中心如何建设
2. 如何盘活数据体现价值
3. 阿里云云上用数解决方案
扫码免费报名观看BI智能分析论坛

个人介绍:目前专注于负责智能化数据工具产品方向,曾就职于百度、埃森哲、友邦,从事过互联网、金融、能源、生产制造、零售等多个行业IT规划、数据仓库、商业智能建设。个人介绍:京东数据产品架构师,曾主导京东零售内部一体化数据分析平台及指标体系的建设,目前是ABI数据产品及大模型数据应用产品的负责人,在指标体系设计、数据产品建设及数字化运营方面有着丰富的实践经验。3. 探讨大模型在数据分析中的应用,如何让GPT“懂业务”个人介绍:现任现代财险大数据部负责人,高级工商管理硕士,毕业于北京大学光华管理学院。20年以上金融保险行业工作经验,在企业数字化转型战略规划、数字化智能风控、大数据征信、风控反欺诈、数据挖掘建模、风险预警与舆情监测等领域具有丰富经验。曾任阳光保险\阳光信保任大数据部高级总监、摩尔龙集团高级副总裁兼CTO、Accenture大中华区咨询经理,中科院空间中心数据分析师等。演讲题目:中小财险公司智能风控实践分享
演讲提纲:
1. 监管的四道风控防线
2. 各保司风控关键举措
3. 保司经营风险监控体系
4. 新能源车风控定价模型
梁臣 京东零售 数据产品架构师
个人介绍:京东零售数据产品专家,先后供职于多家世界500强企业,多次主持及参与数据产品平台项目建设,在零售、金融两大领域具有丰富的数据实践经验。2020年加入京东,目前为京东零售数据可视化平台产品负责人,聚焦数据可视化分析、数据中台、数仓模型等方向,此前曾负责京东零售数据中台商业化赋能输出,成功落地多个海内外大型数据中台商业化项目。
演讲题目:京东零售数据可视化平台产品实践与思考
演讲提纲:
1. 京东数据可视化平台产品能力介绍
2. 数据可视化平台业务赋能案例分享
3. 数据可视化平台的挑战与展望
听众收益:
1. 理解数据可视化平台:听众将对京东的数据可视化平台有深入的理解,包括平台的核心功能等;
2. 学习平台实践经验:听众将了解如何建设数据可视化平台,以及数据可视化平台如何向业务赋能;
3. 思考数据可视化平台发展:听众将对数据可视化平台的挑战、发展趋势和创新有深入的理解和思考。
陈鑫伟 火山引擎 DataWind 技术专家
个人介绍:火山引擎智能数据洞察 DataWind 研发架构师,曾就职于 IBM、阿里云等企业,一直从事大数据分析、数据湖等产品研发。
演讲题目:火山引擎 DataWind 智能化探索与实践
演讲提纲:企业级自助式BI已经逐步成为企业数据分析的标配,抖音集团作为数据驱动型企业,在内部充分践行数据民主化的理念,超过80%的员工在日常工作中能够访问和分析数据,以数据来指导决策和日常工作。大模型的崛起,给数据分析领域带来了重大变革契机。火山引擎 DataWind,作为抖音集团内部统一的 ABI 分析平台,一直致力于通过 AI 能力来简化 BI 分析过程、强化分析能力。本次演讲,将重点介绍 DataWind 在智能化方面的探索与实践,主要包括以下内容:
1. 火山引擎 DataWind 产品技术介绍
2. 支持 AI 算子的数据建模
3. 指标数据的异动检测与智能归因
4. 结合 LLM 的数据探索与自助分析
听众收益:
1. 了解企业级 BI 的通用能力及发展趋势
2. BI 智能化的实践思路,包括 AI 建模、指标智能归因、智能数据问答等
3. 了解抖音集团结合 LLM 在 BI 领域的探索应用
谭李 数势科技 联合创始人
个人介绍:数势科技联合创始人,服务了沃尔玛、永辉、宝洁、中金、平安等头部零售和金融企业的数智化建设,在指标体系设计、指标平台建设、数据价值化场景落地方面有丰富经验。曾任京东零售技术与数据中台总监,百度IDL高级经理。
演讲题目:基于指标平台的智能分析及零售/金融行业实践
演讲提纲:
1. 企业数据民主化&价值化的困境和挑战
2. 指标平台:企业数据智能分析和智能应用新范式
3. 指标平台在零售行业的应用实践
4. 指标平台在金融行业的应用实践
5. What's Next:基于大模型的智能分析未来
听众收益:
1. 从头部企业的最佳实践了解数据指标体系如何构建和落地
2. 了解指标平台的方法论和产品逻辑
3. 探讨指标资产叠加大模型的应用前景
扫码免费报名观看
点击关注,更多信息更新中
评论
沙发等你来抢