云计算及其在数字图书馆中的应用前景分析.doc
《云计算及其在数字图书馆中的应用前景分析.doc》由会员分享,可在线阅读,更多相关《云计算及其在数字图书馆中的应用前景分析.doc(8页珍藏版)》请在咨信网上搜索。
1、云计算及其在数字图书馆中的应用前景分析赵华茗 (中国科学院国家科学图书馆 北京 100190)【摘要】云计算是一种能够将动态伸缩的虚拟化资源通过互联网以服务的方式提供给用户的计算模式。文章简述了云计算的主要概念、特点、关键技术,并提出在数字图书馆建设中,云计算技术将在资源整合优化、数据挖掘和情报研究分析、数字资源长期保存及为学科馆员提供可灵活部署的个性化的用户信息环境等方面发挥重要的作用。【关键词】云计算 数字图书馆 虚拟化 hadoop EaaS【分类号】TP393 Cloud Computing and Its Application Prospect Analysis in the Di
2、gital LibraryZhao Huaming(National Science Library, Chinese Academy of Sciences, Beijing 100190, China)【Abstract】Cloud computing is a style of computing in which dynamically scalable and often virtualized resources are provided as a service over the Internet。 This paper briefly introduces the basic
3、concepts, the features and the key techniques of cloud computing。 The author believes cloud computing will play a very important role in building digital library。 It can provide helps in the integration and optimization of digital libray resources, improving data mining in information analysis, the
4、longterm preservation of digital resource, and provide subject librarian helps in delopying flexibly the individualized users information enviroment.【Keywords】 cloud computing; digital library; virtualization; hadoop; EaaS1引言互联网将全世界连接了起来,并深刻地影响着每个人,人们对信息资源的认识和获取模式也在发生着潜移默化的改变.人们越来越习惯从互联网上获得所需的信息和服务,
5、同时将自己的数据放在网络上共享和保存1。这种模式的变革也必将会给图书馆服务带来一系列的挑战.如:面对数量日益庞大的数字信息的保存与处理问题,如何获取海量的存储和计算资源?如何整合硬件资源,提供更经济的支撑服务?面对读者的个性化服务需求,如何使图书馆服务更加敏捷、更随需应变?因此,建设具有动态资源池的虚拟的高可用的数字资源服务平台成为当前数字图书馆研究者必须面对的一个课题。云计算正是顺应这个时代大潮而诞生的信息技术理念,其目前所取得的许多进展, 可以为数字图书馆研究者实现动态高可用的服务计算平台提供有益的借鉴。美国图书馆界已经开始尝试使用云服务来缓解其IT部门的压力,提升图书馆整体工作效率,如:
6、使用Amazon云来托管部分公共数字资源库,在云中测试服务器管理和Dspace存储软件系统,备份图书馆集成系统等等2。无论应用的大与小,总之云计算正在给数字图书馆的工作模式带来新的转变。云计算的研究和应用正在受到越来越多的用户和科研人员的关注。本文简述云计算的基本概念、特点、关键技术,并对其在数字图书馆中的应用前景进行分析。2 云计算基本概念及特点由于考虑的角度不同, 业界对什么是云计算的提法也稍有所异。维基百科(W)认为云计算是一种能够将动态伸缩的虚拟化资源通过互联网以服务的方式提供给用户的计算模式,用户不需要知道如何管理那些支持云计算的基础设施3。IBM、Google、Amazon等著名公
7、司也都从自身角度出发给出了云计算定义。尽管这些表述方式不同, 但云计算具有的一些特点被认为是可以明确共识的:(1)硬件和软件都是资源,可以是物理的或虚拟的,通过互联网以服务的方式提供给用户;(2)资源以分布式共享的形式存在,以单一整体的形式呈现.对于分布式的理解有两个方面:一方面是地域上相对集中的支持计算密集型应用的分布式系统(数据中心),另一方面就是地域上的分布式。(3)资源可以根据需要进行动态的扩展和配置。(4)用户按需使用云中的资源,而不需要管理他们。3 云计算关键技术作为IT领域的最新发展,云计算在过去的几年里已经有了很多商业应用,如:Amazon EC2、Google App Eng
8、ine和IBM Blue Cloud等等.在云计算发展过程中,有几项技术深刻地影响了今天云计算的应用和研究。其中主要有:支持动态扩展和配置应用的虚拟技术、支持计算密集型应用的Google/Hadoop技术、支持按需服务的EaaS技术.3.1虚拟化技术虚拟化是指计算机资源的抽象4。在虚拟服务器和底层硬件之间建立一个抽象层,使得设备的差异和兼容性对上层应用透明.运用虚拟技术,管理人员可以灵活地对底层千差万别的资源进行统一管理与调度,动态地将资源分配到最需要的地方,可以减少数据处理过程中所需的服务器数量,提高应用和服务的可靠性和可用性,应用和服务既不会因为缺乏资源而性能下降,也不会由于长期处于空闲状
9、态而造成资源的浪费;运用虚拟技术,系统开发人员可以更关注于业务逻辑,而不再需要考虑底层资源的供给和调度;运用虚拟技术,系统测试人员可以安全并灵活地将应用和服务驻留在各自的虚拟机上,形成有效封装隔离,一个应用或服务的崩溃不会影响到其他应用和服务的正常运行。可见,正是由于虚拟化技术的成熟和广泛应用,才使得云计算中的计算、存储、应用和服务都变成了资源,这些资源可以被动态扩展和配置,云计算最终在逻辑上以单一整体形式呈现的特性才能实现.3。1。1虚拟化技术的几种常见类型:在虚拟化技术中,被虚拟的实体可以是我们所见到的各种IT资源,按照资源的类型,虚拟化包括:硬件基础设施虚拟化、系统虚拟化和应用虚拟化4,
10、5.硬件基础设施虚拟化是指将为物理的基础设施提供一个抽象的逻辑视图,用户可以通过这个视图中的统一逻辑接口来访问被整合的基础设施资源.硬件基础设施虚拟化包括:网络虚拟化和存储虚拟化.典型的技术代表:虚拟局域网(Virtual LAN,VLAN)、虚拟专用网(Virtual Private Network,VPN)、磁盘阵列技术(Redundant Array of Inexpensive Disks,RAID)、网络附加存储(Network Attached Storage,NAS)和存储区域网(Storage Area Network,SAN)。系统虚拟化(服务器虚拟化)是指在同一台物理机上运
11、行多个独立的操作系统。系统虚拟化实现了操作系统与物理计算机的分离,在操作系统内部的应用程序看来,与使用直接安装在物理计算机上的操作系统没有明显差异,是被广泛接受和认识的一种虚拟化技术。服务器虚拟化是对CPU、内存、设备与I/O等三种硬件资源的虚拟化,同时服务器虚拟化技术大多支持虚拟服务器实时迁移,实现更好的资源整合.典型的技术代表:Vmware、Xen/Citrix5,6,7。应用虚拟化是指将应用对底层的系统和硬件的依赖抽象出来,解除应用程序与操作系统和硬件的耦合关系,为应用程序提供一个虚拟的运行环境。这个应用虚拟环境为应用程序屏蔽了底层可能与其他应用产生冲突的内容,简化了应用程序的部署和升级
12、。3。1.2云计算中的虚拟应用构架虚拟技术将云计算中的计算、存储、应用和服务资源都变成了可动态扩展的虚拟器件8(Virtual Appliance),如图1所示,变成了一个个包括了预安装、预配置的操作系统、中间件和应用的最小化的虚拟机。与计算机器件相比,虚拟器件摆脱了硬件的束缚,可以更加容易地创建和发布,同时用户不再需要花费大量的人力、物力和时间去安装和配置软件,工作效率大大提高。虚拟技术是云计算的核心技术之一.虚拟化管理平台硬件资源系统中间件程序系统中间件程序系统中间件程序图1 虚拟器件机构图3。2 Google/Hadoop like技术Google的成功很大程度上得益于其强大的数据存储和
13、计算能力,GFS和Bigtable使得其基本摆脱了昂贵的人力运维,并节省了硬件资源,MapReduce使其可以很快看到各种搜索策略运行的效果9,10。而Hadoop技术是一种开源的Google简化实现。在hadoop中可以看到许多Google系统架构核心要素GFS、MapReduce、BigTable、Sawzall、Chubby的身影,如HDFS、Hbase、Pig、ZooKeeper等等11。简单地讲, Hadoop是一个可以更容易开发和并行处理大规模数据的分布式计算平台,是众多云计算应用环境中的重要基础软件,如:Amazon公司基于Hadoop推出的S3(Amazon Simple St
14、orage Service)网络存储服务以及EC2商用云计算平台。在 IBM 公司的云计算项目中,Hadoop也是扮演着重要的角色。Hadoop主要由两部分构成:Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce分布式编程环境。3。2。1 HDFSHDFS的设计思想是构建一个非常庞大的分布式文件系统。采用 Master/Slave的结构,由一个Namenode和多个Datanode组成,如图2所示,在Master上只运行一个Namenode,负责管理文件系统的名字空间和访问权限,保证数据的一致性,写入一次多次读取,而在每一个
15、Slave上运行一个Datanode,负责数据存储。因为HDFS可以部署在低价的硬件设备之上,有高容错性,支持对数据读写的高吞吐率并采取副本策略提高系统的可靠性和可用性,所以很适合那些有大数据集的应用。图2 Hadoop Distributed File System的系统架构11从图2中可以看出,Namenode,Datanode,Client之间的通信都是建立在TCP/IP的基础之上的。当Client要执行一个写入的操作的时候,命令不是马上就发送到Namenode,Client首先在本机上临时文件夹中缓存这些数据,当临时文件夹中的数据块达到了设定的Block的值(默认是 64M)时,Cli
16、ent便会通知Namenode,Namenode便响应Client的RPC请求,将文件名插入文件系统层次中并且在 Datanode中找到一块存放该数据的block,同时将该Datanode及对应的数据块信息告诉Client,Client将及时把这些本地临时文件夹中的数据块写入指定的数据节点。3。2。2 MapReduce分布式编程环境MapReduce10,12是一个编程模型,用以进行大数据量的计算.MapReduce的名字源于函数式编程模型中的两项核心操作:Map和Reduce,同时MapReduce模型也体现了函数式编程中的组合,并行,无副作用操作,惰性求值,高阶函数等概念,简化了分布式系
17、统的编程模型,其计算流程如图3所示.在MapReduce分布式编程环境中,应用程序编写人员只需将精力放在应用程序本身,而关于集群的处理问题,包括可靠性和可扩展性,则交由平台来处理。MapReduce通过“Map(映射)”和“Reduce(化简)这样两个简单的概念来构成运算基本单元,即把一个数组拆解为多个放到线程池中启动多个线程计算数组中的值,然后把多个任务返回的结果合并为一个总的结果完成一个简单的MapReduce的运算,整个过程中,用户只需提供自己的Map函数以及Reduce函数即可并行处理海量数据。 如Hadoop的wordcount例子可以让我们更好地理解MapReduce的编程方式:用
18、Map把one,word,one,dream进行映射就变成了one,1, word,1, one,1, dream,1,再用Reduce把one,1, word,1, one,1, dream,1归约变成one,2, word,1, dream,1的结果集。图3 Mapreduce计算流程123。2。3其他主要的hadoop开源技术HBase是一个面向列的分布式数据库, 其思想源于的Google的BigTable论文。Pig是一个基于hadoop的大规模数据并行处理架构, 使用SQLlike语言编译器把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算,为复杂的海量数据并行
19、计算提供简易的编程接口。ZooKeeper与Google的Chubby lock service很相似,是一个针对大型分布式系统的可靠协调系统, 封装包括配置维护、名字服务、分布式同步、组服务等复杂易出错的关键服务,将简单易用、性能高效及功能稳定的接口和系统提供给用户。3。3 一切都是服务(EaaS、XaaS、aaS)惠普认为一切都可以作为服务通过“云”来达成13。现在整个行业正在逐渐认识到服务的真正理念,大家都将原有的服务概念体系转移到了新的服务概念体系上。新的服务概念体系认为服务是分层次的,分为四层.第一层是硬件基础设施即服务(Hardware as a Service, HaaS),第二
20、层是平台即服务(Platform as a Service ,PaaS),第三层是软件即服务(Software as a Service ,SaaS),第四层是智能(为终端用户提供的服务)即服务(Intelligence as a Service,IaaS),即一切都可以是服务(Everything as a Service, EaaS、XaaS、aaS)14.这是一种通过互联网提供一切资源的服务模式,用户向服务提供商租用资源,且无需对资源进行维护,服务提供商会全权维护管理.其核心理念是将资源直接提供为服务,从而改变目前常见的资源销售并在用户自己的工作环境中消费和使用资源的这种习惯模式.这种服
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 及其 数字图书馆 中的 应用 前景 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。