湖仓一体全面开启实时化时代.pdf
《湖仓一体全面开启实时化时代.pdf》由会员分享,可在线阅读,更多相关《湖仓一体全面开启实时化时代.pdf(62页珍藏版)》请在咨信网上搜索。
1、湖仓一体全面开启实时化时代王峰(莫问)阿里云开源大数据平台负责人Streaming Lakehouse MeetupData LakeData LakeData LakehouseData WarehouseData Lake+Data Warehouse=Data LakehouseApache Paimon Unified Lake FormatA lake format that enables building a Realtime Lakehouse Architecture with Flink and Spark forboth streaming and batch opera
2、tionsThe Past,Present and Future of Apache Paimon2022.012023.032023.122024.032024.10Initialized in Apache FlinkSub Project of Apache FlinkOriginal name-Flink Table StoreBecame Apache Incubating ProjectRename to Apache PaimonOpen to others rather than FlinkGA Version ReleaseProduction ReadyFor Both S
3、treaming&BatchBecame Apache Top-Level-Project Graduated from Apache Software FoundationIntegrated with Flink/Spark/Presto/Unified Lake FormatUnified for Streaming/Batch/OLAPCompatible with Apache IcebergPaimonTable StorePaimonPaimonPaimon-1.0Streaming Lakehouse is ComingHoursMinutes,SecondsApplicati
4、onADSODSDWDDWSApache PaimonDatabase01010101010101010101010101010101DataData LakeLakeCDCStreaming IngestionLSM TreeApache Paimon 已明确为阿里巴巴统一数据湖格式Apache Paimon01010101010101010101010101010101DataData LakeLakeLSM TreeRealtime ComputeE-MapReduceMaxComputeHologres阿里巴巴集团数据业务阿里云海量客户ThanksStreaming Lakehouse
5、 MeetupApache Paimon统数据湖存储底座李劲松/Apache Paimon PMC ChairStreaming Lakehouse Meetup从孵化到毕业,Paimon 的发展与场景0101CONTENT目录 0202统一存储底座,Paimon 与流、批、OLAP0303完整生态集成,Paimon 的计算引擎推荐0404阿里巴巴实践,Paimon 数据湖战役01从孵化到毕业,Paimon 的发展与场景数据架构的演进:流批一体的 LakehouseAppsStreaming Warehouse:秒级LOGCDCStreamStreamETLData LakeMeta Data
6、,Table FormatAppsStreaming Lakehouse:分钟级LOGCDCBatchStreamStreamBatchETLData LakeMeta Data,Table FormatAppsLakehouse:天级/小时级LOGCDCBatchStreamBatchBatchETLLOGAppsWarehouse:天级CDCBatchBatchETLPaimon 前身 FTS 诞生的特点与优势1.低成本的支持了湖上更新2.开放的数据、格式、计算0101 实时数据湖实时数据湖0202 流式数据湖流式数据湖0303 国人主导社区国人主导社区1.深度集成 Flink 流式计算2
7、.流读流写+融合状态计算1.面向国内企业解决问题2.沟通和响应更加顺畅Paimon 社区的发展Contributors147+0408012016020222024147168 XCommits2500+0500100015002000250030002022202425004006 XStars2k+05001000150020002500202220242k300+6 X 一键整库入湖,大幅简化架构 近实时更新,极速查询 灵活更新:部分列更新,多种聚合更新CDCCDC 入湖入湖构建流式链路构建流式链路极速极速 OLAPOLAP 查询查询Paimon 的核心场景 变更日志生成机制,融合 状态
8、计算 真正的队列:消费者机制、变更日志单独生命周期 轻状态低成本的流式链路 Z-Order+索引结合计算极速分析 引擎平权发展:Flink,Spark,StarRocks,Trino02统一存储底座,Paimon 与流、批、OLAPApplicationADSODSDWDDWSApache PaimonDatabase01010101010101010101010101010101DataData LakeLakeCDCStreaming Ingestion流、批、OLAP 一体化架构 与 Flink 深度集成,共同往前发展 继续提升更新能力,更新是流的基础 扩大流写流读的场景,分钟级覆盖全场
9、景流流 结合 Flink 打造流批一体架构,流批一体计算+流批一体存储 深度集成 Spark,打造 State-Of-Art 的批读批写性能 深度集成 OLAP 引擎:StarRocks、Trino 等 推广 Deletion Vectors 模式,近实时更新,极速查询 加强 Z-Order 及丰富的索引,加速查询批批OLAPOLAPPaimon 的统一存储发展03完整生态集成,Paimon 的计算引擎推荐Paimon 计算生态04阿里巴巴实践,Paimon 数据湖战役阿里巴巴业务应用场景20+业务方452 万+Flink Cu45100+作业 流式湖仓提升时效性 CDC 入湖降低成本 离线分
10、析查询加速业务业务 目前还仍处于初步阶段 继续整合内部计算系统 权限系统完整数仓体验 大幅降低实时化成本 流批一体化开发体验 解锁开放式计算能力进展进展收益收益Apache Paimon01010101010101010101010101010101DataData LakeLake统一湖存储:打通阿里云所有计算引擎ServerlessServerless FlinkFlinkServerlessServerless SparkSparkServerlessServerless StarRocksStarRocksMaxComputeMaxComputeHologresHologresPaim
11、on 与 Serverless FlinkPaimon 与 MaxComputeCREATE CATALOG dw WITH(type=paimon,metastore=maxcompute,.);INSERT INTOdw.order_dw.dwd_orders SELECT MaxCompute动注册外表查询ETLThanksStreaming Lakehouse Meetup探索 Apache Paimon 在阿里智能引擎的应用场景王伟骏(鸿历)Apache Yarn&Flink Contributor阿里巴巴智能引擎事业部技术专家Streaming Lakehouse Meetup阿里
12、智能引擎 AI 业务背景介绍0101CONTENT目录 0202引入 Paimon 原因、场景及预期收益0303遇到的问题及解法01阿里智能引擎 AI 业务背景介绍DatabaseFile SystemODPSBinlogMessage QueueTransactionsAlgorithm dataEventsLogsStream ProcessingBatch ProcessingSearch EngineAdvertising EngineRecommendation EngineOffline System业务场景及特点File SystemODPSMessage QueueSample
13、 Engine1、异构数据源多2、业务逻辑复杂3、性能调优难、运维门槛高一次开发内部同一份存储可同时用于流处理和批处理流批一体一个ETL流程自动管理作业依赖及衔接屏蔽异构对接拖拉拽UI开发,无需大数据背景一站式开发运维屏蔽背后大数据技术,享受平台技术升级红利端到端开发一站式平台产品定义:提供 AI 领域端到端的 ETL 数据处理解决方案的一个产品愿景:Make e2e big data process easy and efficient!产品介绍及成果千级万级PB级百万级秒级应用规模日处理数据量作业规模增量TPS增量延迟10年+支持双11Pangu(分布式件系统)ASI(持 K8S 协议的统
14、调度、统资源池)淘宝天猫猪德Paimon湖格式Hologres 分布式 kv 存储Swift消息队列OpenSearchAELazada湖表存储优化服务本地活VVP(SDK提交作业、开发、运维)存储VVRSparkTDDLDRCTTPaimonHA3ODPS计算Catalog(Meta、版本、缘、Dataset)依赖组件核功能UI&Web IDE(开发、配置、运维、监控)持业务Connector数据集成UDxFSQL流批体OLAP调度编排Airflow调度产品端流计算批计算户插件样本处理搜推平台样本平台模型评测视觉平台特征时序数据Embedding离线推理Hippo产品技术架构AdHoc菜02
15、引入 Paimon 原因、场景及预期收益4545成本存储成本居高不下,很多实效性要求不高的场景,其实没必要用成本较高的分布式存储服务来支持。优化我们调用发现数据湖在某些场景下可以解决业务性能瓶颈。解决 Lambda 架构缺点Lambda 架构开发维护复杂存在资源浪费情况公司战略公司要建立集团数据湖生态,湖仓协同,促进集团数据资产集中存储,高效使用。引入 Paimon 原因基于以上几个原因,我们深度对比了业界几大数据湖产品(Paimon、Iceberg、Hudi)之后,结合业务需求及社区发展情况等因素综合考虑,最终选择了 Apache Paimon 作为我们数据湖的湖格式。探索场景及预期收益一、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一体 全面 开启 实时 时代
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。