数据中心建设专业方案简版.docx
《数据中心建设专业方案简版.docx》由会员分享,可在线阅读,更多相关《数据中心建设专业方案简版.docx(54页珍藏版)》请在咨信网上搜索。
1、企业数据中心系统平台技术方案提议书第1章 总体建设方案1.1 总体建设思绪图、数据中心构建思绪图根据对数据中心了解,完整数据中心应该含有IT基础设施(主机、存放、网络)、企业级ETL平台、数据存放中心、数据共享服务、应用层、统一门户、数据管控平台。1.2 功效框架图、功效框架系统功效框架分为企业级ETL平台、存放和计算中心、服务层、应用层、统一门户、统一平台管控。企业级ETL平台:负责企业数据中心数据采集、加工、汇总、分发过程,完成企业级数据标准化、集中化,实现数据脉络化、关系化,实现统一数据处理加工,包含:非实时数据处理和实时数据处理,提供数据抽取、数据转换、数据加载、数据汇总、数据分发、数
2、据挖掘等能力。存放和计算中心:建立统一数据中心数据模型,和统一数据存放和计算,具体提供关系数据库、分布式非关系数据库、分布式文件、分布式计算,实现统一数据存放和计算。数据共享服务:经过数据服务标准化开放访问,帮助企业IT建设中,应用和数据分离,引入更多应用开发商,促进应用百花齐放和应用专业性;基于标准化接口,实现对标签、用户视图、指标等数据查询API封装,实现和周围系统实时互动,表现数据价值,降低数据冗余,确保数据安全,确保数据一致性。应用层:应用层应用使用服务层提供多种数据服务。本期应用层包含:经分应用、流量运行、ESOP应用、VGOP应用、指标库、流量运行战略地图、掌上分析、自助业务分析、
3、区域洞察、渠道运行、自助分析、用户标签库、实时营销、LTE互联网管控策略。统一门户:提供统一域名分配、负载均衡、鉴权管理、统一管控平台接入、应用注册、应用公布、应用访问数据信息等功效,同时提供数据中心被应用访问频次,被应用访问数据范围,提供数据资产评定,为应用上下线和数据开放提供依据。统一平台管控:面向开发人员、运维人员实现数据、应用、资源统一管控,包含:数据资产管控、开发管理、监控管理、调度管理、系统管理、安全管理。1.3 技术架构图、技术架构系统技术架构分为数据采集、计算存放服务、数据共享服务、平台管控。采取Hadoop云技术,能够满足计算能力线性扩展、多租户能力、数据汇总能力;批处理场景
4、采取HadoopMap/Reduce、Hive或Spark来完成;流式数据处理,采取Esper计算引擎实现。数据采集:采取Flume计算框架,实现文件和消息采集和解析;采取流式爬虫、汉字分词、图片识别技术,实现互联网网页信息实时采集;采取FTP文件方法实现对数据文件采集;采取Socket消息方法实现对消息数据采集;采取sqoop方法实现将数据库数据装载到HDFS文件系统。计算存放服务:采取Hadoop中HDFS文件系统提供统一大数据数据存放,满足全量数据留存;基于Yarn提供跨平台资源管理,满足资源统一调度和管理;采取Hadoop实现非实时ETL,实现海量数据批处理,关键处理ODS层-DWD层
5、-DW层-ST层数据处理;视业务数据情况部分DW层-ST层数据处理采取Spark计算框架实现;采取Esper和rabbitmq支撑流数据处理和复杂事件处理;利旧DB2提供ST层数据存放和计算,支持高并发指标级数据共享。数据共享:数据开放共享采取基于HTTP协议REST风格OpenAPI完成同时处理和基于消息队列(MQ)完成异步处理,实现类SOA面向服务架构体系。支持OAuth提供一个安全、开放而又简易授权协议。数据共享服务布署在集群环境中以应对高并发访问请求,并实现集群负载均衡。统一平台管控:采取Java EE技术,经过MVC模式(Model View Controller,是模型视图控制器)
6、把业务逻辑、数据、界面显示分离方法组织代码,将业务逻辑聚集到一个部件里面,在改善和个性化定制界面及用户交互同时,不需要重新编写业务逻辑。1.4 数据流图Mc信令(实时)数据经过Socket消息适配模块接入至Esper计算引擎进行实时处理,向应用提供事件API服务,支撑实时营销应用;后期如Gn信令、LTE信令也提供实时数据,可满足基于Gn信令、LTE信令实时处理。除Mc信令(实时)数据外,Gn信令、Mc信令、自有业务订购和使用行为等数据经过非实时ETL方法装载到HadoopHDFS文件系统,实现全量数据留存;由Hive负担主库职能,实现海量数据批处理,承载ODS-DWD-DW-ST各层数据处理,
7、其中DW层部分数据提供给Spark,由Spark完成数据处理工作。对外数据服务能够由不一样种类API来完成:1、 针对诸如用户统一视图、用户标签库数据探索查询服务:将数据加载到SparkRDD中,经过API将数据共享出去;2、 针对诸如用户标签信息查询、用户详单查询类数据查询服务(特点是经过一个Key来查询数据):将数据加载到Hbase中,经过API将数据共享出去;3、 针对诸如指标数据查询、KPI数据查询服务(特点是高并发、多维度数据查询):将数据加载到DB2数据库(利旧)中,经过API将数据共享出去;4、 针对多租户数据共享服务,详见5.3章节;第2章 企业ETL数据处理平台2.1 功效框
8、架 依据数据中心建设需求,企业级ETL平台实现统一数据采集、转换、加载、处理和统一调度、管控等功效。这里ETL指是广义ETL,含有以下特点: 统一数据获取接入,支持B域数据、M域数据、O域数据或其它外部数据统一接入数据中心平台。 支持结构化和非结构化数据采集、加工;对非结构化数据要实现从非结构化到结构化处理过程。 支持数据采集、转换、加载等关键 ,.数据处理过程,实现企业数据标准。 从周期上,支持批量数据采集,实时数据采集 满足数据中心数据加工,处理和对外提供数据分发、同时 支持全过程数据稽核。包含事前、事中、事后稽核方法。和灵活稽核规则管理,算法管理 全过程可视化开发配置管理。经过可视化开发
9、配置,测试和布署上线。 全过程元数据管理。关键要实现事前元数据管理。管理内容包含:支持数据模型、数据步骤、转换规则、数据关系和转换映射规则。企业级ETL平台产品DACP能够很好支持上述关键功效特点。第3章 数据存放层3.1 总体概述 Mc信令(实时)数据经过Socket消息适配模块接入至Esper计算引擎进行实时处理,向应用提供事件API服务,支撑实时营销应用;后期如Gn信令、LTE信令也提供实时数据,可满足基于Gn信令、LTE信令实时处理。除Mc信令(实时)数据外,Gn信令、Mc信令、自有业务订购和使用行为等数据经过非实时ETL方法装载到HadoopHDFS文件系统,实现全量数据留存;由Hi
10、ve负担主库职能,实现海量数据批处理,承载ODS-DWD-DW-ST各层数据处理,其中DW层部分数据提供给Spark,由Spark完成数据处理工作。3.2 存放计划HiveHbasedb2ODS层3+1月3+1月-DWD层6+1月-DW层12+1月-ST层36月-36月用户标签/视图3月12+1月-指标3+1月-永久3.3 模型设计数据模型设计根据层次,专题数据模型设计思绪。系统依据模型设计会自动转成hadoop上存放。层次、专题映射到对应目录。3.4 模型规范化管理3.4.1 分层规范依据数据仓库建模理论,结合实际经验,数据计算平台承载数据模型分为四层:ODS、DWD、DW和ST,即接口层、
11、存放层、汇总层、应用层。模型分层说明:接口层:ODS模型数据结构和业务系统接口文件结构保持一致,接口层数据在数据计算平台进行暂存。存放层:即明细数据层,是数据计算关键层数据模型之一,用于存放由清洗、转换层来数据或接口层直接来数据,其设计目标是为后续汇总数据层和信息子层提供数据基础。汇总层:即轻度汇总数据层,也是数据计算关键层数据模型之一,该层实现对专题内数据做轻量汇总。设计目标是为应用层提供足够灵活、方便基础数据,并确保从该层获取数据是性能最优。应用层:在汇总数据层之上,数据根据应用需求做数据聚合,生成相关应用所需数据数据层。应用数据层是面向应用,不过也不是每个应用全部在应用数据层对应一个表,
12、对应用要在数据应用层中进行整合。3.4.2 表命名规范OMG标准化组织提议,采取5分段命名规范:以下3.4.3 字段命名规范建立字段命名规范,并固化为domain类型,指导模型设计字段命名。当有变更,能够做到跨平台统一建模。3.4.4 模型版本管理第4章 数据开放服务层4.1 建设目标l 经过数据服务标准化开放访问,帮助企业IT建设中,应用和数据分离,引入更多应用开发商,促进应用百花齐放和应用专业性。l 基于标准化接口,实现对标签、用户视图、指标等数据查询API封装,实现和周围系统实时互动,表现数据价值,降低数据冗余,确保数据安全,确保数据一致性。l 对于详单级数据,支持经过文件或授权方法共享
13、给周围系统。l 经过统一技术平台框架,制订企业数据标准体系规范,基础数据采集处理,加工汇总,能够引入多家厂商或多租户进行标准化开发。要实现上述目标,需要处理关键问题:1) 需要什么样平台功效?2) 开放对象。给谁开放?3) 开放什么内容。包含两部分,基础数据集成开发开放和应用访问层数据开放。4) 开放安全保障机制5) 怎样确保开放对象开发提交结果规范化、质量。6) 开放平台运行组织结构和步骤制度。4.2 概述要满足建设目标要求,数据服务开放整个功效框架以下:4.2.1 开放对象示例说明以下开放对象说明使用形式相关数据多租户经过授权机制,给租户开放经过sql查询数据能力,租户能够在此基础上汇总加
14、工自己私有数据SQL,进行数据处理在保障数据安全性、数据可控性前提下,将Hive仓库ODS、DWD、DW各层开放授权给数据处理开放给租户。 ESOP,VGOP经过文件接口将数据分发给对端系统,满足其数据分析需求文件用户视图,汇总模型等手机经分经过在线同时API调用方法获取数据开放API指标类数据实时营销用户端经过事件注册方法监听服务接口,当服务满足触发条件是主动通知监听用户端消息服务信令位置信息等4.2.2 开放共享方法共享方法说明应用场景示例文件接口数据中心将数据主动导出文件,发送给数据需求方1、boss互动接口2、即席查询临时周期性生成数据开放API经过API查询获取结果数据,即查即用,不
15、落地。按查询数据对象粒度分为三类:1)ST表查询1、经过对公布数据模型提议LSQL进行查询获取数据2)指标类查询2、如手机经分查询指标,原来是经过接口表导入数据,能够经过API来查询数据3)单用户清单信息查询API数据分发将数据中心数据分发到目标数据库。需求方提出申请审批经过后,系统经过分发平台定时将数据分发到目标库定时数据同时。如将用户行为汇总数据定时同时到经营分析系统即席查询业务分析人员经过封装好数据模型和提供在线即席查询分析工具,进行查询分析获取数据临时统计,临时取数消息服务经过消息传输数据。适合于系统之间实时帮助,如用户事件信息。需求方作为消息消费者,同时传输消息事件和内容4.3 多租
16、户管理4.3.1 概述采取多租户思绪,将数据能力和数据平台数据处理能力按需、可控进行开放,在保障数据安全性、数据可控性前提下,经过标准化封装数据操作,可视化开发工具开放给业务运行部门,由其自行进行数据操作开发。 使用企业级数据中心提供统一开发平台来实现多租户数据开发,其功效结构以下图: 系统包含两部分:开发管控和技术平台。经过这两部分相互配合实现系统开发能力开放。这种模式下需要处理关键问题包含以下:怎样进行资源控制,数据权限管理,跨系统之间数据交互,自动调度运行,元数据管理。4.3.2 角色功效系统管理员:对开发团体进行管理,数据权限和系统资源分配、审批。1、设置开发团体使用资源和账号2、对开
17、发团体提出数据权限申请进行审批授权3、表敏感等级和敏感字段。不一样团体对同一数据安全等级能够不一样4、对开发团体上线进行审批。检验性能,开发规范满足情况,调度申请周期是否合理5、对开发团体数据导出安全进行审计租户开发:使用统一技术架构和开发工具,在能够使用数据基础,加工出私有数据1、查看具体数据结构2、新申请数据权限,假如需要新数据,能够进行申请,由管理员审批后就能够使用3、数据加工开发,进行数据汇总、关联查询,数据导出等类型数据数据加工开发4、临时上线、正式上线。5、对其所开发程序数据运行情况监控。4.3.3 统一开发平台技术详解4.3.3.1 租户用户管理n 租户和系统用户映射经过映射开发
18、管理平台帐号及实施平台帐号,以租户方法实现用户及用户组管理,以达成资源管控及数据权限控制目标。以下图,在管控平台进行开发团体管理和对应账号设置,在数据平台完成对租户资源、权限进行控制。每个开发团体依据需要指定其在hadoop或关系数据库上实施账号。在数据平台上实现账号权限、资源控制。在查询或运行某个数据处理任务时,用其对应账号进行实施。从而实现对开发团体开发运行任务资源、权限控制。在管理平台新建租户账号或数据权限变更时,管理平台依据配置参数,实时调用OCDC相关API自动进行授权、修改、创建账号。4.3.3.2 系统计算资源分配控制在管控平台统一对租户进行计算资源分配,分配完参数布署到hado
19、op或关系数据库,实现控制。实现资源控制,包含两部分: hadoop上资源分配和关系数据库资源分配(DB2)。n Hadoop计算资源控制要实现计算资源控制,hadoop需要OCHadoop3.2以上,安装安全组件(sentry) 计算资源控制原理资源池跟系统账号相关。一个系统账号只能属于一个资源池,YARN支持采取资源池方法对系统用户进行CPU,内存运行控制。资源池控制参数:独占资源:最小分配资源。系统确保此用户有最小资源。共享资源:系统空闲时能够使用最大资源其中单位:虚拟cpu核和内存单位。怎样设置租户资源参数,是一个需要不停依据运行情况进行优化过程。注:Spark同hadoop资源管理n
20、 DB2资源控制要实现DB2资源控制,要求:DB2 9.5 版本。现在db2版本已经满足,需要开通WLM生效参数。在DB2 9.5版本推出了工作负载管理WLM(参考附录,不用额外收费),但只能限制CPU数量。控制参数以下:参数名说明min分配给某个服务类最小资源百分比。缺省值为 0。softmax在有冲突情况下(这里能够了解为资源担心时),服务类可取得最少资源百分比。在没有冲突情况下,服务类可取得资源能够超出该值设定百分比。缺省值 100hardmax在没有冲突情况下,服务类可取得最大资源百分比。缺省值为 1004.3.3.3 系统存放资源分配Hadoop存放资源控制,每个租户独立一个文件跟目
21、录,设置文件目录大小;db2存放资源控制,对每个租户独立一个表空间,设置表空间大小;说明:hadoop存放控制采取是操作系统目录大小控制。缺点是无法高度自动共享可用空间。即一个目录大小分配出去以后,意味其就占有了这个空间。所以通常做法是由小到大慢慢分配空间。4.3.3.4 数据权限分配和控制在开发管理平台进行对数据权限分配。依据分配结果在数据平台进行授权、回收等操作。数据权限控制包含:表级权限控制和字段级权限控制:l 表级权限分配:系统依据分配结果,产生授权或权限回收脚本到db2,hadoop进行实施完成权限控制。注:在管理平台分配是逻辑模板表,数据平台控制是实际表。所以有一个模块专门按模板表
22、权限规则转换为物理表授权脚本实施。l 字段级权限分配:在表级授权基础上,对表字段权限进行授权分配。因为现在db2,hadoop不能直接实现对字段级权限控制。所以我们采取两种方法实现这个功效:方法1:建立视图,过滤掉没有权限字段,然后将视图授权给相关账号。实现字段级权限控制。方法2:经过应用级控制。经过开发人员编写sql语句解析,分析其查询中所用到字段,假如字段超出权限范围,则给出提醒,不许可实施。资源控制手段列表:控制项目db2hadoop表级权限经过db2权限管理,经过脚本实现数据权限分配经过kerbors权限管理,经过脚本实现数据权限分配字段级权限经过视图经过视图资源-CPU经过wlm进行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 建设 专业 方案
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。