云存储系统的实现.doc
《云存储系统的实现.doc》由会员分享,可在线阅读,更多相关《云存储系统的实现.doc(63页珍藏版)》请在咨信网上搜索。
1、目 录摘 要iAbstract . . . . . . . . . . . . .ii第一章 绪 论11.1 论文研究的背景11.1.1 背景11.1.2 目的和意义11.2 国内外的进展31.2.1 国外31.2.2 国内41.3 本论文研究的主要内容4第二章 Hadoop云平台62.1 概述62.2 Hadoop介绍62.3 HDFS72.3.1 HDFS简介72.3.2 HDFS体系结构82.3.3 HDFS API112.4 Map/Reduce14第三章 Hadoop与Eclipse开发环境的搭建163.1 概要分析环境搭建163.2 Windows上Hadoop云平台搭建163.2
2、.1安装JDK163.2.2安装Cygwin173.2.3 配置Windows系统环境变量233.2.4 安装和配置SSHD服务253.2.5 配置Hadoop安装包293.3 Eclipse Hadoop插件开发配置333.3.1 Eclipse插件介绍33I 第 页 , 共 2 页3.3.2安装Eclipse333.3.3 Eclipse上Hadoop插件开发配置33第四章 实现与运行374.1 程序的实现374.1.1系统简要分析374.1.2 程序流程图384.2 部分重要代码分析384.2.1文件下载384.2.2文件上传394.2.3 HDFS上文件信息的获取394.3程序的运行4
3、04.3.1 程序运行界面404.3.2 文件上传40总 结42参考文献43谢 辞45附录46I 第 页 , 共 2 页云存储系统的实现摘要:云计算是通过网络实现资源的共享,其资源包括计算、存储、网络、服务和应用软件等,它能高效地为用户提供服务。开源云计算平台很多,如Hadoop,AbiCloud,Eucalypyus等。Hadoop是应用最广的云计算平台,它只需要低廉的硬件基础,且能带来高效的服务。Hadoop还可以很方便结合Java程序实现应用开发,它有具体的插件可供嵌入Eclipse开发环境,在Eclipse应用程序上只需调用此插件内的API就可以实现云计算应用。本项目使用Hadoop作
4、为开发平台。本文首先简单介绍了Hadoop云开发平台,并在Windows环境中结合Eclipse搭建了Hadoop云开发平台,然后并通过该开发环境运用Hadoop 提供的API实现了文件的上传和下载。关键词:云计算;存储;Hadoop;HDFS;Cygwin iiThe implementation of cloud storage systemAbstract: Cloud computing is through the network to realize resources sharing, its resources including computing, storage, net
5、work, service and application software, etc., it can efficiently provide service for the user.There are many open source cloud computing platform, such as Hadoop, AbiCloud, Eucalypyus, etc.Hadoop is the most widely used cloud computing platform, it only needs to be cheap hardware, and can lead to ef
6、ficient service.Hadoop can also be easily combined with Java program to realize application development, it has specific to embed the Eclipse plugin development environment, the Eclipse applications need to invoke this API can be achieved within the plug-in cloud computing applications.This project
7、USES Hadoop as a development platform.This article first introduces the Hadoop cloud development platform, and combining with the Eclipse in the Windows environment set up Hadoop cloud development platform, and then through the development environment using Hadoop provides API implements the file up
8、load and download.Keywords: Cloud computing;storage;Hadoop;HDFS;CygwinI第一章 绪 论1.1 论文研究的背景1.1.1 背景云计算是在2007年提出的一种新概念,是指基于互联网等网络,用虚拟资源的方式来共享整个网络上的资源的新型模式;主要通过整个网络来共同管理和处理,调配计算、存储、网络、软件等资源,将IT资源优化,整合。云计算凭借自身极具创新性的理念引起了业界广泛地关注,成为了整个IT行业最为热门的话题。云计算概念就像名字中所包含的“云”一样牵涉大、覆盖广,可谓整个IT行业的一次史无前例的创新。研究云计算中存在的相关问题,
9、是具有十分重要的意义。如今,企业的生存和发展越来越依靠数据的完整和庞大,在某种程度上说,数据已经成为一个企业的核心部分,它决定着企业的生死存亡。而对于当今数据日趋庞大,以至到现今的大数据时代,其对数据计算的速度和对数据处理的效率变成了关键。CPU的速度不可能在大幅度提升了。这样人们就希望通过增加计算机数量并行运算来提升运算和数据处理速度。云计算也就是通过互联网,利用虚拟化的方式来共享网络资源的计算模式。用服务这样的方式来满足不同用户的各种需求。当然这种方式必然是最低成本的。云计算这一概念被认为是在PC以及互联网这类重大信息技术之后的另一次重大突破。而对已进入大数据时代的现在,这样一个既能满足于
10、高速的运算速度又能满足高效的数据处理能力的平台是必不可少的。1.1.2 目的和意义 云计算的兴起不是偶然的,而是信息技术和应用发展的必然产物,最根本的目第 I 页 共 60 页南华大学计算机科学与技术学院毕业设计(论文)的是最大限度的使用整个网络上的资源。云计算会通过对服务器的负荷程度的分析来对用户的请求进行一个优化的引导,使该服务器与空闲些的服务器进行连接,从而均衡它们之间的利用率以提高用户访问的速度。因此我们知道,采用云计算这种方式可以帮用户的请求在服务器之间实现负载均衡。这种方式必然是最低成本的。而且整个IT行业已达成基本共识,认为云计算这一概念的提出必然引起整个行业的重大变革。在安全的
11、问题上云计算为用户提供了一套最可靠、最安全的数据存储模式,为此对于数据丢失和病毒入侵等问题是不会困扰客户的;在便捷的问题上云计算对用户端设备要求不是很高,使用起来也十分方便;在数据共享的问题上云计算可以轻松实现不同设备见得数据与应用共享;而对于发展的问题上云计算这一概念为我们使用网络资源的方式提供了无限可能。 Hadoop是一个分布式计算开源框架,它可以稳定可靠的运行在大中型集群的比较便宜的硬件设备上,为应用程序的运行提供了一组方便的接口。其最底部是HDFS(即Hadoop Distributed File System),HDFS上存储着Hadoop上所有数据节点上的数据。普通的计算机上也可
12、以安装Hadoop平台,极大程度地降低开发项目的成本,这也让研究项目、使用分布式系统更加简便,而且还是开源的。总的来说,本文有以下几方面的意义:随着现代企业的数据量日益增多,面对庞大的数据,如何对这些数据进行有效管理直接影响着企业的安全。如果我们能利用云存储技术来解决数据问题,毫无疑问这将直接提高企业的效益。Hadoop Distributed File System可以在普通的PC机上使用,可以说这在很大程度上是降低了运行分布式系统的成本。这里通过在普通Pc机上实现云平台上的操作来证明此点。通过对HDFS的研究和发展,我们也可以把这种技术运用到另外的集群存储技术中。这也为IT行业今后的进一步
13、发展提供了无限可能。1.2 国内外的进展1.2.1 国外云计算在国外的从2007年就兴起了,知名的一些电子信息公司纷纷加入了云计算这一领域,例如:IBM,Microsoft,Google,Sun。随着云计算技术的慢慢成熟,他们都相继推出了相关的产品和服务。 Intel、Cisco等传统硬件厂商也开始加入云计算服务商行业。云计算受到了整个国际资本市场的高度关注,VMware也因为其在云计算上的优势技术,成为继Google之后美国最强的云技术公司,在欧洲市场上Salesforce是这方面得领军,发展势头强劲。IBM于2007年8月高调推出“蓝云(Blue Cloud)计划。随之建立了云计算数据中心
14、。在东京建立了全新研究所,帮助用户使用云的基本服务。迄今为止,IBM已发布一系列大型主机的相关云产品。目的是在于减低运营成本并且能早日搭建成安全可靠的云平台。IBM的云系统给客户提供了一种基于开放标准的可信赖的平台。这样的一台大型的主机就可以在单一的系统中保证6,000多台虚拟机的运行、并完全提供一个多租户环境来动态的调配网上共享的资源。谷歌与IBM合作在2007年10月向全球宣布了他们的云计划,他们把全球一些知名大学纳入了他们“云计算”计划。Google与IBM两家公司为了降低分布式计算技术在学术研究方面的成本,已经在美国大学校园,主要包括卡耐基梅隆大学、麻省理工学院、斯坦福大学、加州大学伯
15、克利分校及马里兰大学等,并且进一步推广了云计算。与此同时也为这些大学提供相关云计算的技术支援。在2008年1月30日之后,Google已经在台湾启动了“云计算学术计划”,将这种先进、快速的计算技术推广到校园。在2009年4月,GAE的升级就已经支持Java,并且添加了一系列能满足企业业务的功能:在那之后,Google还发布了一款Eclipse插件,可以对Google App Engine的Java开发提供强力支持,之后Google继续推出了Google Cloud Storage和Google BigQuery。而其发布的Compute Engine云计算平台就是这个架构的基础服务,它可以让我
16、们用谷歌的服务器来运行Linux的虚拟机,得到更强大的数据运算能力,具有延展性广、性能高、性价比高的特点。在群雄崛起之时,微软也不逊色。Windows Azure被认为是在Windows NT之后,微软中最为重要的产品。而且Windows Azure使用全球 Microsoft 管理的数据中心动态来配置 Windows 和 Linux的虚拟机、应用程序以及基础结构。使用 .NET、Java、PHP、Node.js、Python 或 Ruby 开发更好的 Azure 解决方案。在 Visual Studio集成开发环境下,我们可以很方便的开发应用程序。不过很可惜这是一款收费且是按分钟收费的云开发
17、平台。1.2.2 国内在国内,云计算这些年发展迅速。具体说来,这些企业包括了以华为为代表的传统电信设备商、以中国移动、阿里巴巴和百度、以及以瑞星、金山、奇虎360为代表等业内顶尖大公司。这些公司分别以云计算为基础在不同的方向上发展。像中国移动则开发了叫做“BigCloud”的能并行数据处理/搜索大容量数据等的平台,着眼于将平台作为服务进行推广;华为则大力于解决方案和云应用提供的以端到端的云计算德解决方案,可以说是涉及云计算产业链最广的国内企业;百度作为国内互联网巨头,与云计算的浪潮相呼应而推出了“框计算”概念,他的核心思想是云计算的“计算+服务”的理念;作为国内云计算起步较早的企业,阿里巴巴的
18、目标则是建成解决中小企业商业交易问题的“商业云”,更多地在服务上发展,为了实现这一目标,阿里巴巴特地建立了一个“阿里云”的全资子公司;而金山、瑞星、奇虎360等安全公司,也顺应云计算潮流,推出了相应的“云安全”服务。综合国内的云计算发展状况,国内企业本身发展比国外晚,在技术的成熟上势必会弱一些,虽然现今已经取得了很惊人的成绩,但仍有很多需要努力之处。现在最新消息,2014年4月29日阿里云计算已经宣布其在国内继杭州、青岛之外在北京的第三个对外服务数据中心。1.3 本论文研究的主要内容在广泛的文献调研基础上,此论文主要对基于Windows下Hadoop的云计算理论及其上的开发来研究,通过对云计算
19、的了解与学习,实现搭建Windows上Hadoop云平台,并在该平台上使用Eclipse开发应用程序实现视频文件的上传和下载,从而完成多媒体云上的存储。Hadoop是一个开放式源代码框架,而且其开发插件能嵌入Eclipse开发环境,很适合本次论文,因此这里选择Hadoop在Windows上云平台。本论文主要以云计算与Hadoop为主题进行研究,涉及下面三个方面的内容:1).广泛查阅资料的基础上,对云计算的背景以及国内外的发展现状进行了一个很全面的了解。云计算的普遍应用能更加使资源的利用更合理更节约更安全。与计算的发展伴随着很多重要技术的革新,数据存储和管理,还有分布式编程模式的思想,其中虚拟化
20、技术更是为云计算的发展带来了铺垫。在这十年间的历程中云计算的基本的概念以及发展前期其他计算模式的历程使云计算逐渐走向应用,它的特点和优势,对我们现今生活方式的改变起了很大的作用。2).本文的下一部分对在Hadoop云计算在Windows平台上的实现进行研究。这部分对Hadoop的文件系统HDFS(包括HDFS的部分API)及MapReduce的相关基础知识。Hadoop是的构架和实现原理,接着介绍了部分Hadoop API 的使用,熟悉了这些API就能更好的在开发环境上开发出好的应用程序。3).本文的最后一部分是把理论知识转化为实践,重点在Windows环境下搭建一下Hadoop的运行环境并实
21、现文件的上传与下载,从而体验Hadoop给我们带来的方便。第二章 Hadoop云平台2.1 概述 在云计算技术中,一个非常的重要的模块就是编程平台。Hadoop平台是当今应用最为广泛的开源云计算编程平台,本章详细介绍了Hadoop平台的组成及HDFS API。2.2 Hadoop介绍Hadoop是Apache下的一个项目,是一个包括HDFS(重要)、HBase、MapReduce(重要)、ZooKeeper和Hive等成员组成的分布式计算平台(如下图2.1 Hadoop的项目结构图所示)。另外Core项目在Hadoop版本0.20之后就改名为Common,它只是提供工具给其他Hadoop系项目
22、使用的子项目,而Avro是用于数据序列化的系统,并提供了各式的数据结构、数据压缩格式、存储永久数据等等功能。图2.1 Hadoop的项目结构图Hadoop这一平台就是提供存储海量数据的平台。正适应当今的大数据时代。Hadoop在架构上采用的是主从结构,底层是HDFS文件系统,上层是Map/Reduce处理(如下图2.2所示)。HDFS将文件分布式的存储在各个节点上,这样,在计算时也就只是取自于自身节点上的数据,实现分布式计算,避免了大量数据在网络上的传递。Map/Reduce是HDFS的上层,是一种分布式计算,并且由JobTrackers和TaskerTrackers组成了其引擎。因为Hado
23、op有了底层HDFS的分布式存储和上层Map/Reduce的分布式计算,所以在海量计算上占有很大的优势,这也是Hadoop能在搜索引擎上很好很快的运行的原因。图 2.2 Hadoop的基本结构2.3 HDFS2.3.1 HDFS简介Hadoop的HDFS是一个能使用在通用硬件设备上的分布式系统,也是一个高度容错的分布式系统。为了保证数据的一致性,采用“写入一次,多次读取”方式。它被设计在低成本的硬件上运行,具有单一的文件命名空间。HDFS能提供并行处理很大数据量的数据访问,非常适合应用在大规模数据集上。在多个DataNode节点上有同一个数据块的副本,客户端通过NameNode节点得到数据块的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 存储系统 实现
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。