大数据云原生技术发展研究报告2023.pdf
《大数据云原生技术发展研究报告2023.pdf》由会员分享,可在线阅读,更多相关《大数据云原生技术发展研究报告2023.pdf(53页珍藏版)》请在咨信网上搜索。
1、大数据云原生技术发展研究报告大数据云原生技术发展研究报告(2023 年)年)先进计算产业发展联盟先进计算产业发展联盟2023 年年 12 月月I研 究 报 告 要 点研 究 报 告 要 点随着行业的快速发展,数据量也呈爆炸式增长,大数据已成为决策的基本工具,企业面临着数据管理和处理的巨大挑战。围绕 Hadoop的传统大数据架构在交付运维,资源利用率,系统迭代与兼容性,安全等方面存在诸多不足。随着以 Kubernetes 为代表的云原生概念的兴起,越来越多的企业投身于云原生转型的浪潮,以解决传统应用面临的弹性能力不足、资源利用率较低、迭代周期较长等问题。当前云原生的发展已比较成熟,成为数字化转型
2、的重要支撑技术。大数据和云原生技术的融合,逐渐成为企业数字化转型的重要演进方向,目前还处于高速发展,百家争鸣的阶段,一些企业已经在大数据云原生之路上砥砺前行,而国内大部分企业依然处于观望状态。同时可以看到,业界在大数据与云原生结合的定义和方向上,有一些不同的声音,不同企业融合的方式也有所不同。大数据和云计算要不要融合?如何融合?都是人们所关心的话题。带着这个问题,我们希望基于之前积累的经验,结合工作中的痛点,调研并产出一份尽量中立、客观、完整的尽量中立、客观、完整的大数据云原生技术发展报告,希望能为相关企业、研发团队和需要大数据的客户提供参考。也希望能抛砖引玉,吸引更多企业专家的参与,引发后面
3、更专业,更大范围有关大数据云原生技术的讨论,最终能促进一些共识,提升大II数据云原生的技术普惠,“旧时王谢堂前燕,飞入寻常百姓家”,为国家数字化转型,做一点贡献。本报告将从以下几个方向来阐述:1.大数据与云原生技术的发展与演进:大数据与云原生技术的发展与演进:介绍大数据技术的演进,云原生技术的发展,以及它们融合的情况。2.传统大数据平台的痛点:传统大数据平台的痛点:探讨传统大数据平台交付运维成本高、资源利用低效、迭代兼容性及安全性问题等关键痛点。3.云原生技术解决思路:云原生技术解决思路:详细说明云原生技术解决这些关键痛点的思路,以及云原生技术带来的其它好处和引入的新挑战。4.大数据云原生技术
4、架构简述:大数据云原生技术架构简述:简述大数据云原生技术的设计思路和参考架构,包括弹性伸缩、资源隔离、容器化、统一资源调度、多计算引擎管理、统一数据湖管理以及智能化运维等方面。5.大数据云原生的未来发展和建议:大数据云原生的未来发展和建议:最后简单提出对大数据云原生技术未来发展和建议,以提升大数据云原生的技术普惠。由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正,意见及建议请发送至 。IV目录目录一、大数据平台与云原生技术的发展与演进.1(一)数据平台的发展与演进.1(二)云原生技术简述.9(三)大数据与云原生结合分析.12二、传统大数据平台的需求与痛点.15(一)交付运维
5、成本高.16(二)资源利用率低.17(三)系统迭代与兼容性挑战.18(四)安全相关挑战.19三、云原生技术解决大数据问题的思路.20(一)云原生技术提升运维交付质量与效率.20(二)云原生技术提升集群资源使用率和弹性.22(三)云原生技术提升大数据平台迭代效率.26(四)云原生技术提升大数据安全和隐私保护.27(五)云原生技术带来的其它好处.31(六)大数据云原生引入的新挑战.35四、大数据云原生技术的架构简述.40V(一)云原生大数据平台的架构原则.40(二)云原生大数据平台的参考架构.41五、大数据云原生的未来发展和战略建议.44(一)技术发展方向.44(二)针对行业的建议.44(三)针对
6、企业和用户的建议.45六、参考文献.461一、大数据平台与云原生技术的发展与演进一、大数据平台与云原生技术的发展与演进(一)数据平台的发展与演进(一)数据平台的发展与演进需求催生技术革新,在海量数据需求的推动下,数据平台架构持续演进,经过数十年的发展,历经了数据库、数据仓库、数据湖、湖仓一体等概念。这里按出现顺序简述:(其中关于数据湖和湖仓一体目前业界有多种不同的定义,这里我们采用其中一种定义说明)来源:CCSA TC601 大数据技术标准推进委员会图 1:数据分析技术演进图数据库(数据库(Data Base):):自 1980 年代初至中期起,数据管理工具主要呈现为数据库形式,以面向事务交易
7、的 OLTP 场景为主,数据分析功能则作为辅助。这些数据库主要用于向管理层提供固定报表,支持宏观管理决策。它们通过标准SQL提供数据分析能力,主要代表产品包括Oracle、Sql Server、Mysql 等。2图 2 早期数据库阶段系统架构数据仓库(数据仓库(Data Warehouse):):随着互联网的快速普及,门户、搜索引擎、百科等应用快速增长,数据量呈爆发式增长,原有的单个关系型数据库架构无法支撑庞大的数据量。20 世纪 90 年代数据仓库理论被提出,核心是基于 OLTP 系统的数据源,根据联机分析处理 OLAP 场景诉求,将数据经过数仓建模形成 ODS、DWD、DWS、DM 等不同
8、数据层,每层都需要进行清洗、加工、整合等数据开发(ETL)工作,并最终加载到关系型数据库中。来源:云原生产业联盟3图 3:OLAP 系统建设数据仓库架构是为了解决单个关系型数据库架构无法支撑庞大数据量的数据存储分析问题。传统数据仓库多为 MPP(MassivelyParallel Processor)架构,代表产品有 Teradata、Greenplum 等,当前MPP 架构依然为新型数仓的重要选择,比如 ClickHouse,Doris,StarRocks 等。随着 Hadoop 技术的成熟与普及,基于 Hadoop 自建离线数据仓库(Hive)是常见的大数据平台之上数据仓库方案,在目前依然
9、发挥着重要的作用。数据湖(数据湖(Data Lake):):随着移动互联网的飞速发展,半结构化、非结构化数据的存储、计算需求日益突出,对数据平台提出了新的要求。以开源 Hadoop 体系为代表的开放式 HDFS 存储(或 S3)、开放的文件格式、开放的元数据服务(Hive Metastore 等)以及多种引擎(Hive、Spark、Flink、Presto 等)协同工作的模式,形成了数据湖的雏形。4来源:云原生产业联盟图 4:Hadoop 生态系统重要组件2010 年,数据湖概念被提出,数据湖是一种支持结构化、半结构化、非结构化等数据类型大规模存储和计算的系统架构。数据湖与数据仓库的主要区别在
10、于数据仓库中数据在进入仓库之前是需要实现归类,而数据湖是把大量原始数据通过廉价存储保存下来。数据湖架构的特点可总结为:低成本、原始数据、需灵活使用、面向任务数据绑定、不提前定义数据模型。5从解决场景的角度来看,数据仓库和数据湖各有其适合覆盖场景,基本上属于互补关系,前者更多是解决固定的、明确的数据问题;后者则为应对随机性、探索式的数据问题。下图是一个示意图。6来源:Gartner图 5:数据仓库和数据湖的场景湖仓一体(湖仓一体(LakeHouse):):为满足多种数据类型存储、多场景分析等业务诉求,企业的数据采用混合部署模式,其中数据湖和数据仓库通过 ETL 进行数据交换,数据湖和数据仓库是两
11、套独立的体系。7来源:CCSA TC601图 6:湖+仓混合架构图“数据湖+数据仓库”混合架构满足了结构化、半结构化、非结构化数据高效处理需求,解决了传统数据仓库在海量数据下加载慢、数据查询效率低、难以融合多种异构数据源进行分析的问题,但混合架构是技术向业务妥协的一个产物,存在数据冗余,增加存储成本,两个系统间额外的 ETL 流程导致时效性差,数据一致性保障低,混合架构开发运维复杂等弊端。2020 年 Databricks 提出“湖仓一体”的概念,到目前技术和概念侧依然在持续演进。湖仓一体是指融合数据湖与数据仓库的优势,形成一体化、开放式数据处理平台的技术。通过湖仓一体技术,可使得数据处理平台
12、底层支持多数据类型统一存储,实现数据在数据湖、数据仓库之间无缝调度和管理,并使得上层通过统一接口进行访问查询8和分析。总的来看,湖仓一体通过引入数据仓库治理能力,既可以很好解决数据湖建设带来的数据治理难问题,也能更好挖掘数据湖中的数据价值,将高效建仓和灵活建湖两大优势融合在一起,提升了数据管理效率和灵活性。湖仓一体目前没有统一的架构,在企业需求的驱动下,各开源技术和厂商基于原有架构演进,数据湖与数据仓库在原本的范式之上扩展。逐渐形成了“湖上建仓”与“仓外挂湖”两种湖仓一体实现路径。如图 7 和表 2 所示。湖上建仓和仓外挂湖虽然出发点不同,但最终湖仓一体的目标一致。9图 7:湖仓一体架构模块图
13、(二)云原生技术简述(二)云原生技术简述云原生的发展简述:云原生的发展简述:云原生(Cloud Native),最初由 Pivotal 公司的 Matt Stine 在 2013年提出,随后 Linux 基金会在 2015 年成立了云原生计算基金会(CNCF)。CNCF 不仅推广了云原生这一概念,还逐步构建了以云原生为核心的技术生态工具。到 2018 年,Kubernetes 成为 CNCF 的首个毕业项目。目前,Kubernetes 已经确立了在容器编排领域的领导地位,并推动了云原生技术的广泛应用。10来源:https:/cf.io/图 8:云原生 Landscape(景观)指南云原生的核心
14、思想:云原生的核心思想:云原生普遍被认为包含四大核心要素:DevOps、微服务、持续交付和容器化。DevOps:DevOps 是开发(Development)和运维(Operations)的结合,它推动了开发和运维团队的紧密协作。在 DevOps 文化中,软件的开发、测试、部署和监控过程是连续的,不断循环,旨在加快软件交付速度并提高质量。11持续交付:持续交付:持续交付是一种软件工程方法,它允许软件在短时间内且持续地被交付到生产环境。它通过自动化开发、测试和部署流程来支持频繁的版本发布,旨在减少发布新功能和修复的时间。微服务:微服务:微服务架构是一种设计方法,将应用程序分解为一组较小、相互独立
15、的服务,每个服务都围绕特定业务功能构建,并可独立部署。容器:容器:容器技术,如 Docker,提供了一种轻量级、可移植的方法来封装、部署和运行应用。Kubernetes(K8S)则发展为容器编排和管理的领导者,它提供了高级的部署、扩展和运行容器化应用的能力。CNCF 重新定义云原生:重新定义云原生:随着云原生生态的不断壮大,CNCF 基金会容纳的项目越来越多,到了 2018 年,原来的定义已经限制了云原生生态的发展,CNCF 为云原生进行了重新定义:“云原生技术有利于各组织在公有云公有云、私有云私有云和混合云混合云等新型动态环境中,构建和运行可弹性扩展可弹性扩展的应用。云原生的代表技术包括容器
16、容器、服务网格服务网格、微服务微服务、不可变基础设施不可变基础设施和声明式声明式 API。这些技术能够构建容错性好容错性好、易于管理易于管理和便于观察便于观察的松耦合系统松耦合系统。结合可靠的自动化手段可靠的自动化手段,云原生技术使工程师能够轻松地对系统作出频繁和可预测的重大变更频繁和可预测的重大变更。12云原生计算基金会(CNCF)致力于培育和维护一个厂商中立的开源生态系统,来推广云原生技术。我们通过将最前沿的模式民主化,让这些创新为大众所用。”新的定义继续保持原有的核心内容:容器和微服务,加入了服务网格、不可变基础设施和声明式 API 这三个重要设计指导理念,并且强调了公有云、私有云和混合
17、云等新型动态环境。(三)大数据与云原生结合分析(三)大数据与云原生结合分析从 2018 年起,一些开源大数据引擎陆续开始了 on Kubernetes 的探索:2018 年 3 月,Spark v2.3.0 开始探索 on Kubernetes2018 年 6 月,KubernetesAirflow Operator 在正式发布2019 年 8 月,Starburst Presto 宣布持 K8S2020 年 2 月,Flink v1.10.0 发布 Native Kubernetes beta 版2020 年 2 月,Hive 探索 MR3 运在 Kubernetes 上而到了 2021 年
18、 3 月,Apache Spark 3.1 正式支持了 kubernetes,越来越多的企业开始在生产环境使用大数据云原生融合的技术。根据 Pepperdata 关于“2022 BigData on Kubernetes Report”显示:13来源:Pepperdata 2022 BigData on Kubernetes Report图 9:大数据云原生融合情况与上云目的50%+的受访者正在将数据应用迁移至 Kubernetes 中,以降低整体成本。报告显示,迁移原因排名前四的是:1.超过 45%的受访者为了提高应用程序的性能和稳定性而选择将任务迁移至 Kubernetes。2.为任务负载
19、具备更高的灵活性和可移植性。3.降低成本。4.多云解决方案避免被一个云厂商绑定。从任务分布上可以看出:占比最高的大数据作业依次是 Spark、Presto、Kafka、Trino、Flink,可以看到基本上涵盖了大数据领域的批处理、交互式分析和流处理场景。国内外云厂商也一直加大产品技术在云原生(Serverless)方向的投入和引导。亚马逊云科技在 2022 年 re:Invent 中宣布其大数据核心14产品已全面 Serverless 化,阿里云在 2023 年云栖大会上将 Serverless作为大会主题之一,包括大数据在内的多款云产品均发布了其Serverless 相关的产品能力。单纯从
20、技术趋势的角度来看,无论是技术还是产品,大数据云原生化都是发展的必然趋势。与云原生融合的一些其它声音,也值得我们关注:与云原生融合的一些其它声音,也值得我们关注:值得一提的是,在数据库领域,对于“数据库是否应该放到 K8S”这个话题有一些讨论,虽然大数据有一些不同,但可以参考:反方认为:维持已经成熟和可靠的系统不需要维持已经成熟和可靠的系统不需要 K8S:认为将数据库放入 K8S 中会导致“双输”K8S 失去了无状态的简单性,不能像纯无状态使用方式那样灵活搬迁调度销毁重建;而数据库也牺牲了一系列重要的属性:可靠性,安全性,性能,以及复杂度成本,却只能换来有限的“弹性”与资源利用率,但虚拟机也可
21、以做到这些。整体论点分为以下四点:1.增加复杂度和不可靠性增加复杂度和不可靠性:K8S 增加了额外的架构复杂度和潜在失效点。2.性能挑战性能挑战:在 K8S 上运行的数据库可能面临性能问题。3.安全和合规风险安全和合规风险:多租户环境和更多的组件依赖,增加数据库的安全威胁,使得审计和合规更加复杂。4.成本和维护问题成本和维护问题:尽管 K8S 在一定程度上简化了数据库管理,但可能无法抵消其自身引入的复杂度和维护成本。15正方认为,数据库数据库 on K8S,是专业能力的普及化:,是专业能力的普及化:这里的“专业能力”指的是高可用性、弹性伸缩、容错等能力,它们通常需要复杂的技术实现和专业知识。通
22、过将数据库部署在K8S 上,这些能力可以通过 K8S 的自动化和标准化机制更容易地实现和普及,降低了对专业数据库管理技能的依赖。整体论点主要也是下面四点:1.资源弹性和伸缩性资源弹性和伸缩性:K8S 提供强大的资源弹性和伸缩性,适应业务需求的波动,在高峰期自动扩展资源,在低谷期收回,有效节约成本。2.容器技术的优势容器技术的优势:Docker 等容器技术提供了轻量级和标准化的部署方式。容器对数据库性能影响很小。3.K8S 的运维能力的运维能力:包括路由网关、水平扩展、监控、备份和灾难恢复等,这些能力有助于数据库的高可用性和持续运行。4.高可用性等解决方案高可用性等解决方案:固化高可用方案,提供
23、主从秒级切换和数据一致性等特性。“它山之石,可以攻玉”,虽然数据库与数据平台在场景和技术架构上会有一些不同,但大数据云原生的融合在这个问题上依然值得借鉴思考。二、传统大数据平台的需求与痛点二、传统大数据平台的需求与痛点传统围绕 Hadoop 生态构建的大数据平台,存在着交付运维成本高、资源利用率低、系统迭代与兼容性挑战和安全相关挑战。用户期16望大数据云原生技术能够在这些方面为传统的大数据平台带来优化和改进。(一)交付运维成本高(一)交付运维成本高传统大数据平台的建设和维护目前是一个重要且复杂的任务。这些平台通常包括多种不同的组件,它们在技术栈、功能和架构上存在显著差异。这种多样性不仅使得平台
24、的部署和配置变得极为复杂,也大幅增加了整体的运维成本。组件多样性导致较高的人力需求:组件多样性导致较高的人力需求:大数据平台包含多种组件,这些组件在技术栈(如 Java、C+)、功能(如流处理、批处理,OLAP)和架构(如 C/S、MPP)方面各不相同。部署,配置和维护如此多样的技术栈需要大量的专业人力,特别是在部署和交付新的大数据平台时,人力资源的需求和成本会显著增加。运维专业性与效率:运维专业性与效率:大数据组件的复杂性,具有较高的运维知识门槛。这不仅增加了运维团队的工作负担,还可能导致效率低下和更频繁的解决问题需求,从而增加成本。工具与管理挑战:工具与管理挑战:许多大数据组件缺乏开箱即用
25、的日志、监控和告警功能,导致运维团队需要为每个组件单独开发和适配这些工具。17每个组件可能有各自的集群和管理界面,使得整个平台的统一管理和问题排查变得困难。这种分散性不仅降低了运维效率,还可能导致问题解决的延迟,增加了管理成本。云原生技术可以有效缓解传统大数据平台的运维挑战。容器化通过屏蔽不同组件间的技术栈和基础设施差异,简化了运维流程。工具如 Operator 实现了服务部署和运维的标准化与自动化,降低了复杂性和人力成本。在云原生架构下,应用和组件的更新仅需拉取新镜像并重启容器,确保环境一致性,加速应用发布。此外,云原生环境提供统一管理界面,集中处理不同服务的发布和运维,提高问题监测和定位的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 原生 技术发展 研究 报告 2023
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。