中大型企业数据湖建设与升级的研究.docx
《中大型企业数据湖建设与升级的研究.docx》由会员分享,可在线阅读,更多相关《中大型企业数据湖建设与升级的研究.docx(9页珍藏版)》请在咨信网上搜索。
1、 中大型企业数据湖建设与升级的研究 摘 要:随着企业数字化转型的不断推进,业界对海量数据的存储、计算和价值挖掘的体系方法也在不断的演进,本文主要分析了企業数据湖建设的方法和理念,对比了数据湖和传统数据仓库的特点,推演了数据湖架构的升级演进过程,并且通过实际的案例展示了企业数据湖的建设流程和实践经验。关键词:数据湖;数据仓库;数据治理;计算引擎0 引言在数据量爆发式增长的数字经济新时代,数据已经成为与土地、劳动力、资本和技术并列的生产要素之一,是驱动数字经济进步的推动剂。数字资源作为企业的核心资源,得到了前所未有的重视,数字化转型也成为大中型企业IT建设的重点。一般来说,企业数字化转型的过程往往
2、都经历一个自然的演化周期:最初阶段的数据集市(DataMart)将各类应用程序所产生的数据统一存储在统一的集中式数据库内1;在此基础上,数据仓库(Data Warehouse)按照主题领域将多个数据集市集中整合,主要用于归档、综合和深层的数据分析2-3,但其针对非结构类数据和实时处理水平较差4-5;而数据湖(Data Lake)是近期比较热门的概念6-7,其是大数据存储、处理、分析、展示的基础架构。数据湖以数据为导向,能够实现全量数据采集、存储和多范式处理以及数据全生命周期管理,主要解决中大型企业对存储海量任意类型数据、完善的数据资产管理能力、更多样的分析能力、更复杂的企业级应用支撑的诉求。本
3、文将重点阐述数据湖的特点和架构,并以实际案例为基础,总结并探讨中大型企业在数字化转型过程中如何建设并升级成数据湖的经验。1 数据湖的特点数据湖是数据仓库在企业数字化转型过程中逐渐演变而来的,要理解数据湖首先要说明其和数据仓库之间的区别。首先,数据仓库的主要目标用于历史数据的存储和处理,其存储的数据是高度结构化的并且一般以表格形式和结构进行存储,而数据湖可以存储任意不同类型的海量数据,除了结构化数据,还包含半结构化和无结构的媒体数据。例如海量的图片、视频、PDF、CSV、XML等。其次数据仓库存储的主要是加工后的业务数据,其本身是经过处理过的,而数据湖更多存储的是未经过处理的原始数据,无论业务数
4、据的内容、格式和模式都是原封不动的,无需进行结构化处理,是生产数据的副本。第三,对于数据的Schema来说,数据仓库是在数据写入之前完成设计的,即先要根据业务来定义数据模型,在数据导入时需要完全跟既定数据模型吻合,其好处是数据、业务耦合度高,但灵活性差,而数据湖架构认为业务的不确定性是常态,通过保持数据原始状态,保留一定的灵活性,将Schema的设计延后,放在数据读取前,让数据具备灵活贴合业务的能力,更加适合高速变化的业务需求。第四,数据仓库具备批处理流程、商业BI分析和基本的可视化等分析能力,数据湖在数据仓库的基础上补全实时处、交互式分析等技术能力,根据企业的实际需要增加流式计算引擎、交互式
5、分析引擎、机器学习引擎、大规模图计算引擎等。最后,两者面向的用户不同,数据仓库主要面向业务分析人员,而由于数据湖具备的上述特征,其对用户的综合能力要求更高,目标用户主要是数据科学家、数据开发人员等。2 企业数据湖架构演进数据湖作为新一代企业级数据基础设施,其架构的核心主要包括三部分内容:分布式对象存储、丰富的数据计算引擎以及全链路的数据安全管控。数据湖架构应充分考虑可扩展性,随着数据不断的在数据湖累积、沉淀和演化以及面向数据的业务需求不断扩张和升级,数据湖不仅要提供可持续提升的存储及计算能力,还要不断加强数据管理。例如企业数字化转型初期可能只需要对数据进行跑批处理能力并通过定义好的数据驾驶舱或
6、数字大屏进行展示即可,但随着业务规模的不断扩张以及业务对数据分析时效性诉求的不断提升,可能需要对海量大数据(亿级别数量)进行交互式的即席分析和展示能力,以及支持流式数据实时分析能力以及强大的机器学习能力等8-10。数据湖架构的演进可以分为几个阶段,初期是基于开源离线数据处理架构Hadoop,包括了存储核心HDFS、计算模型MapReduce、资源管理Yarn以及众多的大数据衍生产品,例如数据引擎Hbase、分析引擎Hive、交互式引擎Impala等11-14。随着技术水平提升和业务需求变化,一些实时性要求高的处理场景催生了流式计算引擎,例如Flink、Storm等。第二阶段的Lambda架构将
7、流式计算和批量计算统一化处理,用户无需关注底层是批处理还是流式处理,数据能够按照统一的范式得到处理结果即可,从而确保了上层应用的访问一致性。然而Lambda的“流批一体化”处理链路过于复杂,因此产生了第三阶段的Kappa架构,即基于统一的流式计算引擎来处理批量和流式两种计算逻辑,其中批量数据可以通过增加并发量和时间窗口来实现批处理。从传统的Hadoop到Lambda再到Kappa架构,主要演进的是大数据存储和处理能力,而数据湖架构更强调的是对企业全量数据的管理、加工和输出能力,具体可分为原数据管理、数据接入、数据质量管理、数据治理、数据搬迁、访问控制、任务管理、流程编排、数据资产目录几部分管理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大型企业 数据 建设 升级 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。