大数据平台概要设计说明书.docx
《大数据平台概要设计说明书.docx》由会员分享,可在线阅读,更多相关《大数据平台概要设计说明书.docx(31页珍藏版)》请在咨信网上搜索。
1、概要设计说明书计算平台概要设计说明书文件编号受控编号版次1.0密级内部公开总页数42附录 作者: 刘华全 日期: 2013-01-28批准: 日期: 审核: 日期: (版权所有,翻版必究)文件修改记录修改日期修改状态修改页码及条款修改人审核人批准人2013-01-28新建刘华全目 录1.引言51.1编写目的51.2术语与缩略词61.3对象及范围81.4参考资料92.系统总体设计92.1需求规定92.1.1数据导入92.1.2数据运算92.1.3运算结果导出102.1.4系统监控102.1.5调度功能112.1.6自动化安装部署与维护112.2运行环境122.3基本设计思路和处理流程132.4系
2、统结构142.4.1大数据运算系统架构图142.4.2hadoop体系各组件之间关系图142.4.3计算平台系统功能图152.4.4系统功能图逻辑说明162.4.5计算平台业务流程图162.5尚未解决的问题173.模块/功能设计173.1计算驱动模块173.1.1设计思路173.1.2流程图193.1.3处理逻辑203.2调度模块203.2.1设计思路203.2.2流程图223.2.3处理逻辑233.3自动化安装部署模块233.3.1设计思路233.3.2处理逻辑233.4调度模块与计算驱动模块交互流程243.4.1处理流程图243.4.2处理逻辑243.4.3hadoop驱动模块调用驱动接口
3、253.4.4调度模块接收hadoop执行状态接口253.5调度模块与kettle交互流程263.5.1处理流程图263.5.2处理逻辑273.6对调度任务运行过程进行监控流程273.6.1处理流程图273.6.2处理逻辑273.7对hadoop驱动任务运行过程进行监控流程283.7.1处理流程图283.7.2处理逻辑283.8对操作系统/应用程序监控流程293.8.1处理流程图293.8.2处理逻辑293.9监控报警模块303.9.1设计思路303.9.2流程图313.9.3处理逻辑314.系统数据结构设计324.1数据实体关系图324.2数据逻辑结构324.2.1驱动任务设置表324.2.
4、2驱动设置表334.2.3驱动任务执行明细表344.2.4调度任务表344.2.5调度步骤表354.2.6调度步骤执行记录表364.2.7操作系统监控数据表374.2.8应用程序监控数据表384.2.9监控系统配置表384.2.10业务数据记录表394.3数据物理结构395.安全设计396.容错设计406.1挽救措施406.2系统维护设计407.日志设计401. 引言1.1 编写目的 大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。华尔街日报将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料,大数据是下一个创新、竞争、生产
5、力提高的前沿。世界经济论坛的报告认定大数据为新财富,价值堪比石油。因此,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。 互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的渗透。有资料显示,1998年全球网民平均每月使用流量是1MB(兆字节),2000年是10MB,2003年是100MB,2008年是1GB(1GB等于1024MB),2014年将是10GB。全网流量累计达到1EB(即10亿GB或1000PB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。我国网民数
6、居世界之首,每天产生的数据量也位于世界前列。淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB等于1000GB),存储量40PB(1PB等于1000TB)。百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。一个8Mbps(兆比特每秒)的摄像头一小时能产生3.6GB数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。医院也是数据产生集中的地方。现在,一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿计,并且他们的信息需要长时间保存。总之,大数据存在于各行各业,一个大数据时代正在到来。信
7、息爆炸不自今日起,但近年来人们更加感受到大数据的来势迅猛。一方面,网民数量不断增加,另一方面,以物联网和家电为代表的联网设备数量增长更快。2007年全球有5亿个设备联网,人均0.1个;2013年全球将有500亿个设备联网,人均70个。随着宽带化的发展,人均网络接入带宽和流量也迅速提升。全球新产生数据年增40%,即信息总量每两年就可以翻番,这一趋势还将持续。目前,单一数据集容量超过几十TB甚至数PB已不罕见,其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。鉴于越来越大的数据规模,采用常
8、规基于DBMS的数据分析工具和方法已经无法满足大规模数据分析的需求,目前一些大型互联网公司采用hadoop体系进行大规模数据的运算,结合hadoop体系结构与实际的运算需求结合,采用hadoop 体系结构的分布式运算模型,通过集群的方式实现大数据运算,为企业提供大数据的价值。 为适应大数据计算的要求,同时提供大数据运算平台的系统设计的依据,特制定计算平台的系统概要设计文档,为后期的系统详细设计和实现提供依据。1.2 术语与缩略词 下列术语、定义和缩略语适用于本标准:术语与缩略词解 释备 注NamenodeHDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数
9、目的Datanodes组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。Namenode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射Datanode集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,一个文件其实被分成一个或多个数据块,这些块存储在一组Datanode上。Datanode负责处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、
10、删除和复制Secondnamenode光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间JobtrackerJobTracker是MapReduce框架中最主要的类之一,所有job的执行都由它来调度,而且Hadoop系统中只配置一个JobTracker 应用。它们都是由一个master服务JobTrack
11、er和多个运行于多个节点的slaver服务TaskTracker两个类提供的服务调度的。 master负责调度job的每一个子任务task运行于slave上,并监控它们,如果发现有失败的task就重新运行它,slave则负责直接执行每一个taskTaskTrackerTaskTracker都需要运行在HDFS的DataNode上,而JobTracker则不需要,一般情况应该把JobTracker 部署在单独的机器上HBaseHBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigta
12、ble利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。Hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的
13、MapReduce应用,十分适合数据仓库的统计分析。 StormStorm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。FlumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单
14、处理,并写到各种数据接受方(可定制)的能力。ETLETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。KettleKettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。MySQLMySQL是一个开放源码的小型关联式数据库管理系统,开发者为瑞典MySQL AB公司。目前MySQL被广泛地应用在Internet上的中小型网站中。
15、由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。MongoDBMongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。1.3 对象及范围1、开发人员、DBA、测试人员;2、研发主管领导、产品人员;1.4 参考资料1
16、、大数据处理体系架构2、HBase The Definitive Guide3、The.Definitive.Guide.3rd.Edition.May.20124、Programming_Hive2. 系统总体设计2.1 需求规定2.2 运行环境操作系统:RedHad Enterprise 5.5软件环境:Java 1.6 Hadoop-1.0.4 HBase-0.94.9 Hive-0.10.0 sqoop-1.4.2 zookeeper-3.4.5 Kettle 4.3 MySQL 5.1硬件环境:8核16G内存PC服务器8台2.3 基本设计思路和处理流程1、按照数据分析的实时性,分为在
17、线数据分析和离线数据分析。 2、在线数据分析:往往要求系统在数秒内返回上亿行数据的分析,从而才能达到不影响用户体验的目的。 3、离线数据分析:对大多数反馈时间要求不高的应用,比如离线统计分析、机器学习等,应采用离线分析的方式,通过数据采集工具将日志数据导入专门的分析平台进行分析。4、系统主要以离线数据分析为主,采用目前在互联网业界流行的hadoop体系结构对大批量的数据进行运算,采用hadoop集群的方式对大数据进行运算。5、数据运算平台以调度为主线,作为运算平台的核心控制系统,对运算平台的各个环节进行控制,且对运算过程中的步骤依赖关系进行控制,同时对各个环节进行监控,通过监控异常报警来提高系
18、统的稳定性和异常响应速度。2.4 系统结构2.4.1 大数据运算系统架构图日志存储统计分析数据应用Hadoop(HDFS、HBASE)在线计算: Storm 流计算框架离线计算: Hadoop(Map/Reduce、Hive、pig)日志采集 日志采集系统 Flume数据服务数据提取,报表展现,功能、网页展示 统计、分析数据存储,数据接口MongoDB、MySql2.4.2 大数据平台系统功能图系统功能图逻辑说明1) 生产系统的源数据通过sqoop,flume,Kettle等获取后保存在Kafka消息队列中或者保存到hadoop的hdfs系统中。2) 调度系统负责自身的控制功能,通过读取调度控
19、制的配置信息调用驱动代理程序处理相关的运算功能。3) 驱动代理程序负责所有基于运算平台的相关组件的驱动任务,读取调度系统传递过来的模版信息,读取模版信息,并执行相应的驱动操作。4) 系统管理功能部分完成系统相关配置,管理等相关信息的维护操作。5) 监控系统对整个系统的运行状况进行监控,由各个业务子系统按照监控系统的要求实现相应的监控功能。2.4.3 大数据平台功能结构图大数据平台功能结构图说明:1)大数据平台功能结构主要划分为计算平台,应用平台,系统管理以及监控,配置等相关应用功能。2)计算平台分为基础运算部分,模版管理部分,驱动代理部分,系统调度部分。3)计算平台分为离线计算与实时计算两种形
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 平台 概要 设计 说明书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。