分布式存储技术及容灾方案.pdf
《分布式存储技术及容灾方案.pdf》由会员分享,可在线阅读,更多相关《分布式存储技术及容灾方案.pdf(73页珍藏版)》请在咨信网上搜索。
1、分布式存储技术及容灾方案课程大纲 分布式存储技术 Hadoop 概念 Hadoop发展历史 Hadoop 架构 HDFS架构 MapReduce 架构 Hadoop实验 Hadoop 灾备分布式存储分布式存储系统主要包括分布式文件系统与分布式数据库系 统。文件系统与数据库系统区别。文件系统用文件将数据长期保存在外存上,数据库系统用数据库统 存储数据;文件系统中的程序和数据有一定的联系,数据库系统中的程序和数据 分离;文件系统用操作系统中的存取方法对数据进行管理,数据库系统用 DBMS统一管理和控制数据;文件系统实现以文件为单位的数据共享,数据库系统实现以记录和字 段为单位的数据共享。分布式存储
2、早期分布式文件系统关系型数据库NES(Network File System)AFS(Andrew File System)Microsoft SQLServer Oracle Database 3分布式文件系统学分布式数据库Global File System(GFS)General Parallel File(GPFS)SUN 的qFS,XNFSMySQL Oracle RAC3主流分布式文件系统非关系型数据库GFS(Google File System)HDFS Moosefs Hbase MongoDB CouchDB 大规模数据处理的问题 1990年,普通的硬盘驱动器可存储1370M
3、B数据并拥有4.4 MB/s的传输速度,只需五分钟的时间就可以读取整个磁盘 的数据。目前,1TB级别的磁盘驱动器是很正常的,但是数据传输的 速度却在100 M B/s左右。所以它需要花两个半小时以上的时 间读取整个驱动器的数据,从个驱动器上读取所有的数据 需要很长的时间,写甚至更慢。如何解决?一个很简单的减少读取时间的办法是同时从多个 磁盘上读取数据。试想一下,我们拥有100个磁盘,每个存 储百分之一的数据。如果它们并行运行,那么不到两分钟我 们就可以读完所有的数据。Hadoop是什么?Hadoop是种针对大数据分析的开源分布式计算平台,是 由Apache软件基金会主席Doug Cutting
4、在雅虎时创建。个分布式文件系统和并行执行环境,让用户便捷地处理海 量数据。目前Yahoo是最主要的贡献者。Hadoop应用Yahoo Yahoo目前有超过38000台服务器,有超过4000个以上的服 务器集群,数据总量达到了 170PB,每日的数据增量在10TB 以上。Yahoo的Hadoop应用包含有搜索、日志处理(Analytics,Reporting,Buzz)、用户建模、内容优化,垃 圾邮件过滤器以及广告计算等。Hadoop应用Yahoo以网络分析为例,Yahoo目前有超过100亿个网页,1PB的网 页数据内容,2万亿条链接,每日面临这300TB的数据输出。在应用Hadoop前,实施这
5、过程我们大概需要1个月的时 间,但应用后仅需要1周时间。再以Yahoo搜索为例,我 们的服务器上保留有用户三年来的搜索记录,这个数据是由 超过10TB的自然语言文本库所组成,如果数据重整,我 们在应用Hadoop前需要1个月的时间进行处理,而在有了 Hadoop后仅仅需要30分钟。Hadoop应用Facebook随着Facebok网站的使用量增加,网站上需要处理和 存储的日志和维度数据激增。在这种环境下对任何种 数据处理平台的个关键性要求是它必须具有快速的支 持系统扩展的应变能力。止矽卜,由于工程资源有限,所 以系统必须是可信的,并且易于使用和维护。Facebook正在运行世界第二大Hadoo
6、p集群系统 Facebook在Hadoop上存放的数据超过了2PB;每天加载的数据超过10TB;Hadoop系统具有2400个内核,大约9TB的内存。Hadoop应用-淘宝淘宝是在国内最先使用Hadoop的公司之一。淘宝网目 前有会员2亿左右,日均UV高达4000万,日交易量高达 10亿元,每天产生大量的数据,所以部署了一系列不同 规模的Hadoop集群。淘宝生产所使用的Hadoop集群 为目前国内规模最大的Hadoop集群之一。Hadoop集群规模 总容量为14.1PB,利用率77.09%共有1300台机器 每天处理18000道Hadoop作业 用户数474人,用户组38个 扫描数据:约50
7、0TB/天Hadoop行业应用 1.在线旅访学:目前Cloudera的Hadoop架构正在为80%左右 的全球在线旅游预定服务。rbitz CEO Barney Harford表 示,受益于Hadoop架构,他们极为轻松地实现了诸多的数 据分析工作,并在其中得出MAC用户比Windows用户愿 意支付20美元的成本来预订酒店,可以帮助发现以前从来 没有发现的数据点,进而使分析和挖掘成为了可能。2移动数据:Cloudera为70%美国智能手机提供服务,通过无线方式存储和处理移动数据,以及有关市场份额的数 学可以帮助锁定客户。3.电子商务:Cloudera第三个市场是美国超过10,000,000家
8、 网上商店。Hadoop行业应用 4.能源发现:采用Hadoop来对数据进行排序和整理,而这些 数据全部来自从海洋深处地震时产生的数据,而其背后有可 能意味着石油储量。5.能源节省:使用Hadoop来提升电服务,尽量为用户节省 在资源方面的投入。某些特定功能,如精确并长期的费用预 测如果没有Hadoop几乎很难完成。power现在管理着 30TB的信息,其中包括来自5000万用户(横跨60个公共事 业部)能源数据,气象与人口方面的公共及私人数据,历史 信息,地理数据及其他。这些都是通过超过20个MySQL数据 库和一个Hadoop集群来存储和处理的。Hadoop行业应用 6.基础设施管理:随着
9、更多的公司从服务器、交换机及其他IT 设备商收集并分析数据,Hadoop更有市场。NetApp收集设 备日志(现在已经超过:LPB的容量了),并将它们存储在 Hadoop 中。7.图像处理:利用Hadoop来存储和处理高来自卫星捕捉的高 分辨率图像,并尝试将这些信息及图像与地理格局的变化相 对应。8.欺诈检测:在金融服务机构和情报机构中,欺诈检测一直 都是关注的重点。Zions BancorporationiJHadoopJ 储所有数据,并对客户交易和现货异常进行判断,对可能存 在欺诈行为提前预警的。Hadoop行业应用 9.IT安全:如基础设施管理一样,企业通过使用Hadoop来处 理机器产
10、生的数据,以识别恶意软件和网络攻击模式。ipTrust通过使用Hadoop来指定IP地址的名誉得分(在0-1之 间的得分,等于没有防线或未知的风险),从而使其他安 全产品可以判断是否接受来自这些来源的通信,IBM和HP都 使用i pTr u st的安全产品。10.医疗保健:Apixi利用Hadoop平台开发了语义分析服务,可以对病人的健康提供医生、护士、及其他相关人士的回答。Apixi试图通过对医疗记录进行先进的技术分析,与一个简 单的基于云计算的搜索引擎来帮助医生迅速了解病人。Hadoop特点扩容能力(Scalable):能可靠地(Reliably)存储和处理干 兆字节(PB)数据。成本低(
11、Economical):可以通过普通机器组成的服务器群 来分发以及处理数据。这些服务器群总计可达数千个节点。高效率(Efficient):通过分发数据,Hadoop可以在数据所 在的节点上并行地(Parallel)处理它们,这使得处理非常的 快速。可靠性(Reliable):Hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(Redeploy)计算任务。Hadoop生态系统Apache Hadoop Ecosystem(u o q E U 一pooo)-d *007-11-1ETL Tools;l Bl Reporting;;RDBMS!iMapReduce(Job Sc
12、heduling/Execution System)Pig(Data Flow)Hive(SQL)SqoopHBase(key-value store)(Streaming/Pipes APIs)HDFS(Hadoop Distributed File System)4Hadoop成员组成 Apache Hadoop是个用java语言实现的软件框架,在由 大量计算机组成的集群中运行海量数据的分布式计算,它可 以让应用程序支持上千个节点和PB级别的数据。ZooKeeperHadoop成员组成 Hadoop core:Hadoop的核子项目,提供了一个分布式 文件系统(HDFS)和支持MapRed
13、uce的分布式计算。Hbase:建立在Hadoop内核之上,提供可靠的,可扩展的 分布式数据库。ZooKeeper:个高效的,可扩展的协调系统。分布式应用 可以使用ZooKeeper来存储和协调关键共享状态。PIG:建立于Hadoop内核之上,是种支持并行计算运行框 架的高级数据流语言。HDFS系统架构HDFS ArchitectureMetadata(Name,replicas,.):/home/foo/data,3,.NamenodeRack 2ClientHDFS主要组件DataName Node Data NodesNameNode DataNode存储元数据 存储文件内容元数据保存在
14、内存中 文件内容保存在磁盘保存文件、Block、DataNode之间 维护了Block id到DataNode本地文的映射关系 件的映射关系NameNode NameNode是个中心服务器,单节点,负责管理文件系统的 名字空间(namespace)以及客户端对文件的访问。NameNode负责文件元数据的操作,DataNode负责处理文件内容 的读写请求,跟文件内容相关的数据流不经过NameNode,只会 询问它跟那个DataNode联系,否则NameNode会成为系统的瓶颈。畐本存放在明B些DataNode上由NameNode来控制,根据全局情况 做出块放置决定,读取文件时NameNode尽量
15、让用户先读取最近 的副本,降低带块消耗和读取时延。NameNode全权管理数据块的复制,它周期性地从集群中的每个 DataNode接收心跳信号和块状态报告(BlockReport)接收到 心跳信号意味着该DataNode节点工作正常。块状态报告包含了一 个该DataNode上所有数据块的列表。DataNode 一个数据块在DataNode以文件存储在磁盘上,包括两个文 件,一个是数据本身,个是元数据包括数据块的长度,块 数据的校验和,以及时间戳。DataNode启动后向NameNode注册,通过后周期性(1小 时)的向NameNode上报所有的块信息。心跳是每3秒次,心跳返回结果带有NameN
16、ode给该 DataNode的命令如复制块数据到另一台机器,或删除某个 数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。集群运行中可以安全加入和退出些机器。文件存储HDFS:Hadoop Distributed File SystemBlock Size=64MBReplication Factor=3I HDFs)2343)ost/GB is a few 0/month 4 vs$/month文件存储文件切分成块(默认大小64M),以块为单位,每个块有多 个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)NameNode是主节点,存储文件的元数据如文
17、件名,文件目 录结构,文件属性(生成时间,副本数,文件权限),以及 每个文件的块列表以及块所在的DataNode等等。DataNode在本地文件系统存储文件块数据,以及块数据的 校验和。可以创建、删除、移动或重命名文件,当文件创建、写入和 关闭之后不能修改文件内容。实例:HDFS写文件实例:HDFS读文件Data NodeData NodeHDFS读文件流程 客户端联系NameNode,得到所有数据块信息,以及数据块 对应的所有数据服务器的位置信息。尝试从某个数据块对应的组数据服务器中选出个,进行 连接。数据被个包个包发送回客户端,等到整个数据块的数据 都被读取完了,就会断开此链接,尝试连接下
18、个数据块对 应的数据服务器,整个流程,依次如此反复,直到所有想读 的都读取完了为止。HDFS可靠性保障 个名字节点和多个数据节点 数据复制(冗余机制)存放的位置(机架感知策略)故障检测数据节点 心跳包(检测是否宕机)块报告(安全模式下检测)数据完整性检测(校验和比较)名字节点(日志文件,镜像文件)空间回收机制Hadoop实验实验环境三台PC机,Linux操作系统,各主机对应的ip地址:192.168.1.11 ubuntul 192.168.1.12 ubuntu2 192.168.1.13 ubuntu3 Hadoop安装包(http:/hadoop.apache.org/core/rele
19、ases.html)安装jdk 1.5以上版本Hadoop实验 Hadoop 安装在所有的机器上建立相同的用户,例如:grid SSH配置,实现在机器之间执行指令的时候不需要输入密码在ubuntul(准备设为NameNode)上生成密钥对,执行$ssh-keygen-t rsa,然后一路回车,就会按照默 认的选项将生成的密钥对保存在.ssh/id_rsa文件中。执 行:$cd/.ssh$cp id_rsa.pub authorized_keys$scp authorized_keys ubuntu2:/home/grid/.ssh$scp authorized_keys ubuntu3:/ho
20、me/grid/.sshHadoop实验在ubuntul上酉己置Hadoop 解压缩,执行:$tar-zxvf./hadoop-0.19.1.tar.gz 编辑 conf/hadoop-site.xml 编辑conf/master,修改为ma st er1的主机名(每个主机名一行)ubuntul编辑conf/slaves,加入所有slaves的主机名 ubuntu2 ubuntu3Hadoop实验在其它机器上配置把Hadoop安装文件复制到其他机器上$scp-r hadoop-0.19.1 ubuntu2:/home/grid$scp-r hadoop-0.19.1 ubuntu3:/home
21、/grid编辑所有机器的conf/hadoop-env.sh文件,将JAVA_HME变量设置 为各自JDK安装的根目录,不同机器可以使用不同的JAVA版本gridubuntul:/hadoop-0.19.1$bin/hadoop namenode-format 09/06/16 19:01:57 INFO namenode.NameNode:STARTUP.MSG:STARTUP.MSG:Starting NameNodeSTARTUP.MSG:host=ubuntul/192.168.1.11STARTUP.MSG:args=-formatSTARTUP.MSG:version=0.19.1
22、STARTUP_MSG:build=https:/svn.apache.org/repos/asf/hadoop/core/branches/branch-0.19-r 745977;compiled by*ndaley*on Fri Feb 20 00:16:34 UTC 2009 09/06/16 19:01:58 INFO namenode.FSNamesystem:fs0wner=grid,grid,adm,dialout,cdro m,floppy,audio,dip,video,plugdev,fuse,Ipadmin,admin09/06/1609/06/1609/06/1609
23、/06/1619:01:5819:01:5819:01:5819:01:59INFO namenode.FSNamesystem:supergroup=supergroupINFO namenode.FSNamesystem:isPermissionEnabled:trueINFO common.Storage:Image file of size 94 saved in 0 seconds.INFO common.Storage:Storage directory/home/grid/hadoop-O.19.1/tmp/dfs/name has been successfully forma
24、tted.09/06/16 19:01:59 INFO namenode.NameNode:SHUTDOWN-MSG:SHUTDOHN-MSG:Shutting down NameNode at ubuntul/192.168.1.11查看Hadoop运行状态 HDFS状态 http:/:50070/Map Reduce 状态 http:/:50030/查看文件系统情况 bin/Hadoop dfsadmin-report列出文件系统目录 bin/Hadoop fs-Is hdfs:/:9100/查看Hadoop运行状态tsitr Mtdoop 1/&t du Ktdoop MModt aut
25、ti X-Q1今 C N D 10.10.11.191:5C30master Hadoop Map/Reduce AdministrationQuick Links,State:RUNNING 一状态Started:Wed Nov 20 16:20:43 CST 2013Version:1.1.2,r1440782-Compiled:Thu Jan 31 02:03:24 UTC 2013 by hortonfoIdentifier:201311201620Safelode:OFF-集群情况Cluster Summary(Heap Size is 9 MB/966.69 MB)Running
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分布式 存储 技术 方案
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。