天天看点

数据平台构建方法论及最佳实践!

作者:Lakehouse
数据平台构建方法论及最佳实践!

数据中台建设的方法论是什么?数据治理前沿探索有哪些?如何搭建统一的数据服务平台?如何做好大数据平台开发?前沿的数据架构如何设计?数仓建模如何实现规范化、标准化?

为了尝试解答上述问题,2023年4月8-9日,DataFun举办了第1届数据平台架构峰会。本次峰会由1位主席与3位专家团成员和6位论坛出品人精心策划而成,共包含了:数据中台能力建设、数据治理、数据服务体系、大数据平台开发、前沿数据架构、数仓建模等6个论坛,邀请20余位来自一线的数据平台技术专家,进行深度分享交流。本次峰会将全程直播,欢迎大家扫码免费报名收看:

扫码免费报名

▌峰会日程

数据平台构建方法论及最佳实践!

峰会主席

汪源 网易副总裁、网易杭州研究院行院长、网易数帆总经理

个人介绍:汪源,博士,网易副总裁、网易杭州研究院执行院长、网易数帆总经理,全面负责网易集团基础软件技术研究、公共技术平台建设和网易数帆政企业务。担任CCF CTO Club创始成员、中国软件行业协会智能应用服务分会副主任、浙江省计算机学会理事、浙江软件行业协会副理事长。曾获浙江省有突出贡献青年科技人才、万人计划青年拔尖人才、151人才工程第一层次培养人员和杭州市杰出青年人才等荣誉。曾承担省部级以上科技项目5项,获省部级以上科技进步奖特等奖和一等奖各1项,发表高水平论文6篇,授权发明专利11项。

专家团

蔡适择 顺丰科技大数据总监

个人介绍:负责顺丰大数据平台底盘建设及产品化工作,完成顺丰大数据平台从0至1的整个建设过程,之前负责京东实时计算平台从0至1的整体建设。在大数据平台、物联网、边缘计算领域有丰富的实践经验,深耕大数据平台存算分离、实时数仓、融合计算等技术,致力于大幅降低数据开发及应用门槛,让大数据技术成为一项人人可用、可快速应用的技术。

陈鹏 腾讯数据平台部总监

个人介绍:陈鹏,腾讯数据平台部总监,腾讯大数据平台产研负责人,2012年加入腾讯,曾就职于comodo、支付宝,十五年大数据领域研发经验,对搜索引擎、分布式计算以及数据分析等技术有丰富的研发经验,目前主要负责大数据基础平台、数据应用平台以及商业化产品的团队管理和系统研发。

张靖 bilibili 数据平台部 高级技术总监

个人介绍:bilibili 数据平台部部门负责人。先后在猎豹,阿里游戏,哔哩哔哩工作,目前在哔哩哔哩负责大数据平台建设以及主站数据建设,长期关注微服务,高可用架构,大数据业务技术方向。

▌详细介绍

① 数据中台能力建设论坛

数据中台本身的意义是促进数据服务的快速构建与迭代,而不止是一个流行的概念,如果中台不能为企业带来业务价值,那盲目投入则得不偿失。因此,在追求中台之术之前,先要理解中台之道。为此,本次数据中台能力建设论坛将邀请申万宏源、神策、网易数帆、OPPO的专家,为您带来数据中台在证券、营销等行业和场景下的建设方法论,并会着重探讨数据中台的价值转化之道。并且,该论坛还会从服务层深入底层的大数据架构,分享数据从生成到服务的全流程效率优化与异常诊断的落地实践经验。

出品人:郭忆 网易数帆 大数据产品技术负责人

个人介绍:网易数帆大数据产品技术负责人,研究生毕业于天津大学,毕业后就加入网易团队,在网易有超过10年的数据开发和管理经验,帮助网易云音乐、严选、新闻、有道等业务构建了数据中台。极客时间《数据中台实战课》专栏作者,订阅量超过21000+,长期受邀参与QCon、DTCC、ArchSummit、SACC、GIAC等行业峰会,分享网易在数据开发和数据管理方面的最新实践。

傅江如 申万宏源证券 大数据平台专家

个人介绍:NIISA 联盟专家委员会副主任委员、CSTQB®金融业软件测试工作组专家组员,18年软件领域工作经验,近9年专注于证券行业大数据及人工智能相关应用,擅长大数据技术架构、大数据业务应用、证券数智化、量化投资、项目管理、质量管理等领域。当前负责申万宏源大数据平台架构和数据技术业务赋能,拥有 FRM、PMP、CMMI 评估师等资质,并出版过多篇职务论文及两部专业著作。

演讲题目:证券行业数据中台建设方法与实践

演讲提纲:

1. 数据中台建设一般方法论

2. 券商数据中台理论基础

3. 券商数据中台落地实践

4. 数据中台证券应用场景

听众收益:

1. 为何要构建数据中台?意义与价值

2. 如何在券商成功构建数据中台?

3. 数据中台构建后的应用场景?

王琛 神策数界平台架构师

个人介绍:王琛是神策数界平台产品的架构师,负责业务数据中台产品的设计和研发工作。硕士毕业于英国爱丁堡大学人工智能专业,有 12 年以上大数据从业经验,在大数据分析处理、分布式系统架构等方面有比较深刻的理解和实践经验,并对机器学习等多个领域亦有研究。著有《深度学习原理与 TensorFlow 实践》一书。

演讲题目:面向营销场景的数据中台建设思路

演讲提纲:

1. 营销业务对数据中台的需求

2. 营销数据中台的数据组织方式

3. 营销数据中台的核心功能模块

4. 营销数据中台支持业务场景的实践

听众收益:

1. 营销数据中台的业务价值

2. 如何面向业务组织数据,以便连接业务团队与数据团队

3. 讲数据应用到营销业务的实例介绍

徐华 网易数帆 大数据产品专家

个人介绍:徐华,网易数帆大数据产品专家,目前负责数据开发治理平台EasyData的离线开发、自助分析、发布中心、控制台等产品,推动这些产品在网易全线互联网业务落地及商业化输出。曾就职于阿里巴巴、网易严选等,具有多年大数据开发经验。

演讲题目:基于 DataOps 构建数据生产流水线

演讲提纲:

1. EasyData 平台概述

2. 为什么需要 DataOps 流水线

3. 流水线的六个环节详解

4. 两条流水线的探索

听众收益:

1. DataOps 如何加持数据开发的能力?

2. 如何实现多环境的发布?

3. 网易 DataOps 实践经验

戴巍 OPPO 数据平台架构师

个人介绍:戴巍,OPPO 数据平台架构师。目前在 OPPO 数据智能中心负责数据平台效能、交互式分析引擎等。

演讲题目:OPPO 大数据诊断平台设计与实践

演讲提纲:介绍 OPPO 如何通过自研任务诊断系统对异常及不合理任务进行快速自动化诊断。

听众收益:

1. 如何快速自动化的进行异常任务诊断

2. 非入侵式方案,降低对线上系统的干扰

扫码免费报名

② 数据治理论坛

数据治理伴随着数据全生命周期的进程,涉及事前规范检查、事中监控管理、事后优化复盘等过程,关键重点领域包括数据质量的可用性、一致性,数据安全及合规性、资产成本度量及治理,以及在整个治理过程中所需的流程、规范和技术等。

这次我们邀请了来自小米、翼支付、字节的专家,分享结合自身业务特点在数据治理方向的前沿探索及实践,希望通过本次的深度交流,大家对数据治理能有更全面的理解,在确保数据作为资产进行管理并转化为有意义的信息上能更前进一步。

出品人:李晓菲 火山引擎 DataLeap 产品专家

个人介绍:武汉理工大学硕士毕业后加入阿里巴巴,在大数据领域10+年工作经验,先后负责过阿里巴巴数据资产管理平台、dataworks平台等产品,也深度参与了滴滴数据体系2.0的建设,对数据开发生产和治理有着深厚的积累,目前负责字节大数据平台DataLeap泛治理领域的产品建设工作。

孟熠 小米 数据分析师

个人介绍:中山大学信息科学与技术硕士,9年工作经验,曾任职阿里巴巴达摩院数据技术专家负责智能客服数据相关工作,现任职小米担任数据分析工作,负责数据驱动产品业务、数据系统高效降本提效,以大数据治理大数据,沉淀方法论、工具平台实现常态化数据治理。

演讲题目:基于资产健康度量化模型的小米数据治理实践

演讲提纲:

1. 数据现状及数据治理必要性

2. 资产健康的五个方面

3. 资产健康度量化模型

4. 数据治理方案

5. 工具化能力建设

6. 未来规划

听众收益:

1. 如何量化衡量及提升数据系统健康度

2. 如何建设闭环常态化数据治理能力

3. 如何精细化高效数据治理

郑家瑜 翼支付 高级数仓工程师

个人介绍:硕士毕业于西安电子科技大学,分别在平安、翼支付等公司从事大数据数仓及平台搭建工作,多次参与企业级数仓从0到1搭建及数据治理项目,目前在翼支付主要负责数据治理项目和指标体系建设。

演讲题目:翼支付数据治理实践

演讲提纲:

1. 翼支付数据治理体系

2. 数仓规范治理

3. 数据质量治理

4. 数据成本治理

5. 数据资产治理

听众收益:

1. 企业级数据治理体系包含哪些方面

2. 数仓规范治理、数据质量治理,数据成本治理,数据安全治理等数据实践方案

3. 如何将数据治理成果维系好

周方圆 火山引擎 DataLeap 资深研发工程师

个人介绍:目前负责字节跳动 DataLeap 的智能化方向的建设。

演讲题目:智能化、自动化,揭秘字节跳动数据质量前沿探索

演讲提纲:从应用场景视角来看待数据质量问题,通过自动化、智能化技术让数据质量可以被“观测”。把数据质量融入在研发、协作的流程中。

听众收益:

1. 了解如何通过智能化的工具提升数据质量

2. 交流数据可观测性的前沿进展

韩谋让 火山引擎 数据治理专家

个人介绍:在数据领域深耕 10年, 有着丰富的数据架构和业务建模经验,目前致力于字节成本治理相关事项,为日常业务中遇到的问题提供通用治理解决方案并在产品侧推广落地。

演讲题目:火山引擎 DataLeap 计算治理自动化实践和思考

演讲提纲:

1. 引言

- 数据治理的重要性

- 调优的挑战及自动化需求

2. 遇到的问题与挑战

- 手动调优的局限性

- 多参数相互影响的复杂性

- 实时监控和反馈的需求

3. 计算治理自动化解决方案

- 自动化参数搜索技术

- 实时监控与自适应调整

4. 实践案例与成果展示

- 具体应用场景介绍

- 自动化实施过程

- 成果分析与效果展示

5. 结论与展望

- 计算治理自动化解决方案的优势与局限性

- 未来发展趋势与挑战

听众收益:

1. 了解手动调优的局限性以及多参数相互影响的复杂性,认识到实时监控和反馈在调优过程中的重要性。

2. 通过实际案例,了解自动化解决方案在Spark任务调优中的应用和实施过程,以及所取得的成果和效果。

3. 思考计算治理自动化解决方案的优势与局限性,并对未来发展趋势和挑战有所了解。

扫码免费报名

③ 数据服务体系论坛

数据服务体系通过对底层异构物理数据的语义化(指标、标签等),结合低门槛的分析和应用工具产品,实现数据高效高质量的消费,进而发挥数据价值。本论坛将从数据服务体系建设视角,分享数据指标中台建设方法、数据服务体系设计及落地、数据分析及应用平台的建设经验与案例等主题,让大家全面而又深入了解大数据服务体系的建设思路,受邀专家包括字节、快手、Kylin、小米和去哪儿等公司,对于数据仓库、数据平台及数据应用相关方向同学有很大参考价值。

数据平台构建方法论及最佳实践!

出品人:董西成 快手数据平台研发负责人

个人介绍:董西成,快手数据平台研发负责人,超过10年大数据经验,《Hadoop技术内幕》书籍作者,擅长大数据架构、数据工具链、数据中台等技术方向。

陈昌源 火山引擎 DataWind 资深研发工程师

个人介绍:本科和硕士毕业于上海交通大学,曾就职于百度上海研发中心。目前在字节跳动,是数据准备业务技术负责人,为字节营销套件提供数据处理的平台能力。

演讲题目:字节跳动面向多样应用场景的数据准备实践

演讲介绍:数据准备是数据分析与呈现的必备前置环节,不同场景的数据应用,所需要准备的数据各有千秋,本次分享将介绍字节跳动内部面向多样应用场景的数据准备实践。

演讲提纲:

1. 字节的数字应用场景

2. 字节的数据概况

3. 数据准备的作用

4. 数据准备的组成

5. 数字魔方--通过模块组合满足多样场景

6. BI 场景,全员都能探索数据

7. CDP 场景,打通数据孤岛挖掘客户

8. 自定义场景,获取数据构建自己的数据应用

9. 数据准备在火山引擎的应用

听众收益:

1. 公司级全员 BI 平台的数据是怎么产生的?

2. 有限资源环境下如何保障数据产出高吞吐?

3. 如何使用火山引擎助力数字转型?

陈硕 快手 指标平台技术负责人

个人介绍:清华大学本硕毕业,曾就职于Hulu、阿里云EMR团队。2019年加入快手,从0到1参与构建了快手指标与服务化平台。目前专注于数据建模,指标体系,数据分析,Headless BI等技术领域建设,在构建公司级指标中台方向有丰富的实践经验。

演讲题目:快手统一数据服务平台设计与实践

演讲提纲:快手在大数据中台构建了统一的大数据服务平台,并服务于全公司所有业务,服务并发流量千万级别。本次将从数据服务领域视角介绍如何搭建覆盖多场景的数据服务平台,并详细剖析快手统一数据服务平台的技术架构、相关关键技术以及从落地实践。

听众收益:

1. 数据服务体系的设计思路

2. 快手数据服务体系的落地实战

张仲良 小米 研发工程师

个人介绍:主要负责小米数据服务和数据分析平台的建设工作。

演讲题目:基于统一语义层构建的智能化数据分析平台

演讲提纲:介绍小米数据分析平台的技术架构、产品性能和对小米业务的价值。

听众收益:

1. 如何搭建数据分析平台的架构?

2. 自研数据分析平台的优势有哪些?

张杰 去哪儿旅行 大数据总监

个人介绍:2015 年加入去哪儿旅行,大数据总监、数据平台团队负责人,目前主要负责公司级数据平台和数据治理工作。近十年大数据工作经验,先后就职于创新工场、去哪儿旅行,对数据仓库、数据平台、数据治理有丰富的实践经验,始终以数据赋能业务为目标。热爱分享,在公司内部以及CSDN、QCon+、CSDI等平台多次以出品人或讲师角色进行大数据相关分享。

演讲题目:CDP 在 Qunar 精细化运营中的建设实践

演讲提纲:互联网从流量红利时期进入存量时期,叠加全球疫情影响,精细化运营成为业务重要的增长点。从 2016 年起 CDP(Customer Data Platform)连续 7 年入选 Gartner 的 Hyper Cycle for Digital Marketing 报告,从发展趋势来看 CDP 已逐步走向成熟应用,成为精细化运营的标配工具。目前去哪儿旅行已构建上千个标签,覆盖十几条业务线,广泛应用到三十几个业务场景,产生了极其可观的业务收益价值,切实发挥了 CDP 在数据驱动业务增长方面的作用,同时也获得公司年度金项奖。本议题主要分享 CDP 助力业务增长的内在逻辑和闭环建设实践,希望关注 CDP 的同学有所启发。

听众收益:

1. CDP 是什么以及在业务精细化运营中的作用与价值

2. CDP 针对运营活动效率提升建设的一站式解决方案

3. CDP 在业务精细化运营中的应用场景

宗正 Kyligence 资深技术布道师

个人介绍:在 Kyligence 主要负责围绕智能指标中台产品和解决方案的布道和培训,具备丰富的技术布道、培训体系搭建及企业级培训交付经验,对业界头部客户的数据分析场景有深入理解。

演讲题目:低代码指标平台,构建人人可用的敏捷指标工具

演讲提纲:

1. 什么是指标平台(Metrics Platform)?

2. 报表驱动和低效数据开发面临的挑战

3. 低代码服务重塑效率

4. 低代码指标平台的突出价值

5. 从报表驱动到指标驱动

听众收益:

1. 指标平台建设面临哪些挑战?

2. 如何自助构建指标体系?

3. 如何一键洞察指标异动?

4. 如何赋能业务用户自主用数?

5. 如何加速从数据到决策?

扫码免费报名

④ 大数据平台开发论坛

现代商业竞争已经从渠道、资源向系统整体效率倾斜,而效率的竞争很大程度上来自于数据能力的支撑。

当我们从数据平台方的视角出发会发现演进路上存在着诸多挑战,比如:

1. 数据领域的生态非常庞大,针对不同场景在资源、数据规模、时效的权衡下会衍生出不同的架构和组件,以及随之带来的团队碎片化,设备资源的重复投入,数据一致性的焦虑,技术选型的困难和迁移的潜在风险;

2. 在伴随业务扩张的过程中,如何平滑而透明地解决伸缩性,用好自建以及混合多云资源;如何建设一站式多租户的数据工具链,在开发生产以及租户之间做好共享和隔离的权衡;如何通过平台自治、自适应能力建设以最小代价提供最优的平台服务体验;

针对以上挑战,本论坛各位嘉宾带来了在各自平台建设实践过程中的宝贵经验。

数据平台构建方法论及最佳实践!

出品人:唐暾 腾讯数据平台部 应用平台负责人

个人介绍:唐暾,腾讯云 TBDS 产品创始人,腾讯云 DLC 研发负责人,腾讯大数据应用平台负责人,当前负责实时湖仓一体应用架构融合和自适应能力建设。

黄丹青 腾讯大数据平台大脑项目负责人

个人介绍:黄丹青,腾讯大数据平台大脑项目负责人。十余年数据工程研发与创新经验,聚焦解决大数据领域性能与效率问题,并进行对应的平台级能力建设。参与的腾讯内部第一个konajdk版本(基于大数据场景特性订制)研发,主导的jvm诊断平台(konaprofiler)为大数据、广告推荐、金融等场景提供广泛支持;目前负责的平台大脑项目作为腾讯新一代数智融合能力的重要组成部分,通过专家经验库+AI技术双轮驱动,助力大数据平台稳定运营与降本增效,目前已经在微信支付、广告、财付通、腾讯新闻等相关业务落地。

演讲题目:自治在线优化新模式——腾讯大数据平台大脑 AI 探索与实践

演讲提纲:近年来大数据业务规模迅速增长,随之在大数据平台运营治理上带来了新的挑战:海量大数据任务的治理,缺乏统一、标准的数据与评估模型、治理工具,难以支持业务对大数据任务执行效率、稳定性等进行持续优化。对数据应用开发者--大数据任务的诊断/优化技术门槛较高,当前严重依赖人工经验,效率难以提升。腾讯大数据平台摸索出数据+算法驱动的“平台自治”方案,对于万亿级大数据分析逐步实现“自动化运营”, 提供一站式的大数据观测、诊断、调优等能力,针对自诊断、自优化、自管理等技术难点,平台大脑通过AI辅助与自动化平台级治理能力,大大降低大数据产品使用门槛。本次分享首先介绍超大规模数据平台运营与治理领域面临的挑战与行业发展趋势,接着围绕大数据平台自治体系沿着 “感知-洞察-决策”环节逐级演进的过程,层层解读腾讯大数据平台如何利用自身 AI+BIGDATA 的双引擎,探索自治在线优化的新模式。

听众收益:

1. 了解大数据平台稳定与提效、智能化自治技术的发展趋势与业界前沿实践。

2. 下一代大数据平台智能化运营能力的发展趋势与可能性

于成铭 四维纵横 技术架构总监

个人介绍:现任四维纵横技术架构总监,十余年工业大数据采集分析与处理实施落地经验。在天泽智云,主导设计交付iPACOM智慧风电平台。包含了传动链、叶片等大部件预测性维护、能量管理系统、生产管理系统、运维管理系统等板块;目前已部署近千台风机终端。在三一重工,团队规模30人,主导泵诵云平台1.0与2.0数据与算法设计,平台监控与分析管理产品超两万台。主要技能侧重于数据系统架构与行业算法。

演讲题目:新一代车联网数据基座架构 - 基于 YMatrix 的最佳实践

演讲提纲:新能源汽车行业迅猛发展,迎来崭新的万物互联时代。现有数据技术诞生于互联网时代,在功能、性能、易用性上无法满足海量时序数据分析场景。行业需要新一代的数据基座。YMatrix 实现了一库多用,全面支持新能源企业的数据管理需求,极大的降低了客户使用数据库产品的门槛,只要懂 SQL 就可以轻松实现大数据处理、分析和机器学习,让开发省力、运维省心、老板省钱、迭代省时。 目前已应用于多家新能源企业。本次分享围绕 YMatrix 的实际落地经验展开,为新能源企业提供数据基座建设提供新的思路。

听众收益:

1. 需求、业务及数据平台架构全景

2. 挑战、权衡与技术选型

3. 车联网大数据平台最佳实践分享

崔博雯 小米 高级研发工程师

个人介绍:10年研发经验,4年大数据平台研发经验,曾负责经营数据分析平台“XDATA”产品研发,广受业务好评;现负责集团一站式数据开发平台“数据工场”。

演讲题目:数据开发平台架构实践 - 数据开发的生产环境隔离

演讲提纲:大数据时代的到来,使得数据开发平台变得愈发重要。数据开发平台能够提供可靠、高效、灵活的数据开发服务,为企业决策提供有力的支持。然而,数据开发平台也面临着很多的挑战,其中之一就是如何在生产环境中进行隔离,确保数据的安全性、稳定性和可用性。本次演讲,将探讨数据开发平台的架构实践和生产环境隔离的重要性,以及如何通过合适的架构和技术手段来解决这些问题。

听众收益:

1. 为什么需要生产环境隔离

2. 生产环境隔离的挑战和难点

3. 生产环境隔离的好处和意义

赵荣生 网易云音乐 数据平台开发

个人介绍:Apache Spark/Pulsar/RocketMQ Contributor,先后在腾讯、唯品会、BIGO负责数据平台和产品建设。当前主要负责云音乐实时计算和数据平台产品建设工作。

演讲题目:云音乐流批统一的低代码数据开发平台提效实践

演讲提纲:

1. 云音乐数据平台现状和挑战· 平台规模· 面临挑战· 建设理念2. 一站式数据开发平台 FastX

· 设计理念· 平台架构3. 场景化落地及 ClickHouse 使用优化

· 数据产品开发场景

· AB 指标计算场景

· 索引构建场景

· ClickHouse 使用优化

4. 未来规划

· 场景拓展

· 指标平台

· 计算和存储层流批统一实践

听众收益:1. 通过低代码和可视化提升数据开发效率并以场景化落地,实现开发周期从天级降低为小时级别2. 通过数据模型实现流批场景的模型层统一3. 基于低代码屏蔽技术细节,实现降低运维成本和提升任务稳定性的目的

胡林 爱奇艺 资深工程师

个人介绍:胡林,爱奇艺资深工程师。目前主要负责爱奇艺数据分析平台方面工作。

演讲题目:爱奇艺魔镜——解决大数据分析平台化难题

演讲提纲:

1. 爱奇艺大数据分析平台魔镜背景介绍

2. 魔镜平台各阶段发展历程

3. 当前魔镜平台架构,功能介绍以及解决的问题

4. 魔镜平台收益

5. 未来规划

听众收益:

1. 了解大数据分析平台架构如何选型

2. 了解大数据分析平台在数据中台和数据治理中的作用

张韶全 茄子科技 大数据技术总监

个人介绍:现任Shareit大数据技术总监。博士毕业于香港中文大学,研究方向分布式系统设计和算法优化,研究成果曾发表于ICNP、SIGMETRICS、TON等会议和期刊。曾任腾讯大数据离线计算负责人,负责SuperSQL、Hive、SparkSQL、Presto等的研发。大数据开发书籍《SparkSQL内核剖析》作者之一。

演讲题目:跨多云大数据平台 DataCake

演讲提纲:

1. 跨多云大数据平台 DataCake 介绍

2. 多云混合架构下的平台管理

3. 自助化高性能数据湖分析

4. 数据计算的弹性扩缩

听众收益:

1. 如何在多云混合架构下构建大数据平台

2. 如何实现自助化数据湖分析

3. 如何充分发挥云的弹性优势

扫码免费报名

⑤ 前沿数据架构论坛

企业数智化转型的浪潮带动数据中台产业蓬勃发展,而数据架构作为数据中台建设过程中最核心的要素,其优劣将对项目实施后的实际效果产生重大影响。为深入研讨数据架构前沿理论与生产实践,助力企业选择适合自己的数据架构,我们邀请到了来自小米、OPPO、Alluxio及阿里云的技术专家,为大家带来“前沿数据架构论坛”,您将了解到现代大数据技术栈及企业数据平台架构的发展趋势,大数据计算、数据湖仓技术上的演进及详细应用场景等方面。

出品人:傅正佳 Alluxio 开源布道师

个人介绍:傅正佳,Alluxio 开源布道师。本科毕业于上海交通大学电子系,随后取得香港中文大学信息工程博士学位,毕业后加入新加坡高级数字科学中心(美国伊利诺伊大学在新加坡的研究所)从事科研工作,在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前,傅正佳曾在新加坡科技公司Bigo Technology担任机器学习研发总监。

张青锋 Alluxio 解决方案负责人

个人介绍:张青锋,毕业于新加坡国立大学(硕士)及西安交通大学;曾在Oracle, Sybase, StarNET等公司长期从事解决方案架构、技术咨询、产品研发等工作;在分布式缓存/分布式数据库/内存数据库、大数据/数据湖等领域具有多年技术架构及产品研发经验。

演讲题目:Alluxio 数据编排:构建云原生大数据分析和AI计算的基石

演讲提纲:

1. 现代大数据技术栈及企业数据平台架构发展趋势

2. Alluixo 产品架构定位及典型应用场景分析

3. Alluxio 全球客户案例分析

听众收益:

1. 了解现代大数据栈的最新发展趋势:包括存算分离架构发展、云原生技术运用、数据湖/湖仓一体架构衍进以及企业数据平台现代化( modernization )常见场景及挑战

2. 了解 Alluxio 产品在现代数据栈及企业数据平台中的架构定位及典型应用场景

3. 了解 Alluxio 一些全球客户案例的最佳实践

喻奎 阿里云 高级技术专家

个人介绍:喻奎,阿里云高级技术专家。哈工大本硕毕业进入阿里巴巴云计算部门工作近十年,一直从事大数据计算引擎底层研发工作。

演讲题目:MaxCompute 湖仓一体近实时增量引擎揭秘

演讲提纲:

1. 了解 MaxCompute 近实时入湖的业务需求和痛点

2. 近实时增量查询引擎设计原理简介

3. 近实时增量入湖应用实践

听众收益:

1. MaxCompute 如何实现离线和近实时一体化设计

2. 如何基于 MaxCompute 支持近实时 upsert 增量导入业务场景

3. 如何基于 MaxCompute 支持增量查询和 timetravel 业务场景

付庆午 OPPO 大数据架构师

个人介绍:吉大计算机硕士,曾在去哪儿网大数据团队,阿里云 Maxcompute 团队工作,目前在 OPPO 数据架构组负责大数据架构演进开发。

演讲题目:OPPO 数据湖仓技术演进

演讲提纲:

1. OPPO大数据架构演进

2. Shuttle2.0大数据计算辅助引擎

3. Glacier数据湖仓服务底座

4. 湖仓非结构化领域技术探索

听众收益:了解 OPPO 大数据架构演进,了解开源 shuttle 最近进展,在大数据排序和广播的创新,数据湖仓在结构化数据实时性和索引的新技术,非结构化数据的技术探索。

李培殿 小米 研发工程师

个人介绍:毕业于北京邮电大学,曾参与小米流式计算引擎 Flink 研发,目前负责小米数据湖 Iceberg 的研发工作。

演讲题目:数据湖 Iceberg 在小米的应用场景

演讲提纲:

1. Iceberg 在小米的现状

2. Iceberg 在小米的应用场景

3. 未来规划

听众收益:

1. 了解 Iceberg 实用的特性

2. 了解 Iceberg 在小米的应用场景

扫码免费报名

⑥ 数仓建模论坛

数仓建设是串联技术能力与业务的一个重要环节。数据开发人员的工作流程一般是:通过数据建模,完成数据清洗、转换,让业务快速获取标准、准确的数据。那么,如何实现数据业务化建设?我们需要定义统一数据标准、规范,统一数据保障策略,统一数据服务能力。有了这样一套保障机制、标准流程、方法,最终才能对外提供高质量的数据。今天 ,我们也邀请各互联网的数仓建模方向的专家,给大家介绍数据建设各环节的最佳实践。也希望通过这次在线交流分享,开阔大家对于建模的思考,了解近期数仓行业发展现状。

出品人:吴剑雄 bilibili 数据平台部数仓平台负责人

个人介绍:就职过 携程、百度、B站 多家互联网公司,在数据行业 10 以上工作、管理经验。负责过 旅游、广告、视频、电商 等多个领域的数仓 0-1 方案设计 ,技术架构。在数仓建模、数据服务、大数据引擎、性能有丰富经验。

邓成聪 红薯叶科技 数字化业务部 CDO

个人介绍:邓成聪,2000毕业于武汉大学,先后服务于IBM、埃森哲、百度和华为,在华为曾任人工智能平台高端专家(19级),一手孵化了华为ModelArts平台(获得斯坦福大学和全球智博会双料冠军),曾代表华为参与编写中国人工智能平台标准。邓成聪是TOGAF注册企业架构师(95分),曾获华为总裁奖、百度总裁特别奖。邓成聪数据仓库/数据建模领域的有近20年的经验,为华为、百度、国家电网、深圳交警、以及10+家金融机构做过数据仓库和数据模型的工作。

演讲题目:数仓 Onedata 体系建设方法论

演讲提纲:

1. 数据仓库与与企业架构

2. 数据仓库模型设计方法论

3. 数仓架构及数据分层

4. 数据服务

听众收益:

1. 了解企业架构及数仓架构的关系

2. 为什么数仓需要建设 Onedata 体系

3. 如何确保 Onedata 体系

胡峰 bilibili 资深研发工程师

个人介绍:曾在招商银行、阿里巴巴工作,专注于大数据中台、数据体系化建设,有多行业数仓建设经验,目前在B站数据平台部数仓团队,负责公司级数据质量保障体系的建设工作。

演讲题目:B站数据质量保障体系建设与实践

演讲提纲:这次分享,将会介绍数据质量保障在B站的实践落地,主要内容包括:

1. B站数据质量保障的背景和目标

2. 质量保障体系架构

3. 优化场景探索与案例成果

4. 未来工作展望

听众收益:

1. 数据质量到底是保障什么?

2. 保障体系应该包含哪些要素?

3. 大量人力投入保障后,如何衡量保障收益?

潘松杜 网易严选 资深大数据平台开发工程师

个人介绍:研究生学历,毕业后开始在网易严选数据平台部门从事大数据体系建设相关工作。曾经主要负责数据集成平台Datahub项目的研发,目前主要在数仓建模平台负责系统整体架构的设计,参与部分功能模块设计与开发,推动项目的落地。

演讲题目:数仓建模平台在网易严选的探索实践

演讲提纲:介绍网易严选数据仓库建设的现状、分析当前数仓建模过程中存在的问题和痛点。针对痛点介绍了数仓建模平台的设计思路和系统架构。从规范指标定义、规范模型设计以及模型的自动化3个方面展开阐述平台在网易严选的探索和实践过程。最后对平台的实践效果和落地成果做总结和复盘。

听众收益:

1. 对企业数据仓库建设现状做量化分析

2. 模型自动化构建的汇总代码生成引擎的设计

3. 如何落地和推动数据开发工作习惯和思路转变的

李奎 bilibili 资深数据产品经理

个人介绍:就职于哔哩哔哩数据平台部门,目前主要流量数据分析产品、用户标签、AB 实验产品工作。

演讲题目:B站埋点数据标准化实践

演讲提纲:介绍B站在流量数据标准化治理实践经验,主要内容包括:

1. 埋点流量数据标准化背景

2. 标准化策略

3. 产品化设计

4. 回顾与展望

听众收益:

1. 流量数据特征及管理方法

2. 流量元数据管理产品设计如何更有效

3. 流量管理标准化的落地实践爱桐 阿里云 DataWorks 产品专家

个人介绍:阿里云 DataWorks 产品专家,主要负责数据建模、数据资产及数据分析等产品工作。阿里巴巴9年数据产品工作,曾先后在安全部及天猫精灵从事数据产品工作。

演讲题目:阿里巴巴数据模型设计与构建实践

演讲提纲:

1. 阿里巴巴数据需求工作流转介绍

2. 阿里巴巴电商建模最佳实践

3. 电商数据建模实操演示

4. 数据模型应用—数据资产介绍

听众收益:

1. 阿里巴巴数据需求工作流转介绍

2. 阿里巴巴电商建模最佳实践

3. 电商数据建模实操演示