公共计算环境分布式数据存储优化策略研究.pdf
《公共计算环境分布式数据存储优化策略研究.pdf》由会员分享,可在线阅读,更多相关《公共计算环境分布式数据存储优化策略研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、总第351期1引言公共计算环境为全舰业务系统提供计算、存储、显控、信息接入与传输交互等集成保障服务,在对各基础设备监测过程中,会产生大量的历史数据,Hadoop技术栈能够为公共计算环境基础服务平台提供分布式数据存储功能支撑。Hadoop分布式存储通过自身负载均衡程序完成均衡1。但该负载均衡算法并没有优先处理负载超重的计算单元,在多节点的计算单元集群中负载均衡的效率有待提高。2Hadoop负载均衡算法针对负载不均的情形,Hadoop提供一套针对方案,该方案中设计了一种算法,算法定义了一个阈值参数。通过该参数来对比Hadoop平台各计算单元的实际数据占用率。如果占用率高于该定义值,则说明该处理对象
2、承载的数据量过大,需要被均衡处理;如果占用率低于该自定义值,则说明该处理对象单元已经达到均衡状态。定义四个链表用于存放计算单元对象,依次分别存放承载数据量过大计算单元、超过平均值且不是承载数据量过大的计算单元、低于平均值且不是非常低的计算单元和非常低的计算单元,通过Hadoop负责均衡设计思路和实现方法可以逐个将各对象单元的负载达到一个平衡状态2。各对象单元负载实现均衡状态后,能够显著提高整个计算单元集群承载能力,在数量相同的情况下,可以承担收稿日期:2023年3月22日,修回日期:2023年4月30日作者简介:石钊铭,男,硕士研究生,工程师,研究方向:舰船电子工程。舰 船 电 子 工 程Sh
3、ip Electronic Engineering总第 351 期2023 年第 9 期Vol.43 No.9公共计算环境分布式数据存储优化策略研究石钊铭(武汉市江夏区藏龙大道709号武汉430205)摘要公共计算环境分布式数据存储采用HDFS技术。HDFS底层数据存储方式遵循副本机制,数据存储机制按照数据块分布存储。副本数量增加导致数据节点负载不均,使得公共计算环境计算单元集群出现性能下降等问题。论文设计了一种处理策略,对超负载计算单元的处理优先级进行分析排序,该策略能够合理选取计算单元顺序,优先处理负载承载较大的计算单元,实现系统整体各单元之间的均衡,提高了高负载计算单元均衡速率,从而很好
4、地控制高负载单元运行效率。关键词公共计算;HDFS;负载均衡;策略调度中图分类号TP311DOI:10.3969/j.issn.1672-9730.2023.09.026Research on Optimization Strategy of Distributed Data Storage inPublic Computing EnvironmentSHI Zhaoming(No.709 Canglong Avenue,Jiangxia District,Wuhan,Wuhan430205)AbstractHDFS technology is adopted for distributed
5、data storage of public computing environment.HDFS data is stored inblocks,and each block ensures data redundancy through replica.The increase in the number of replicas leads to uneven load on data nodes,which leads to performance degradation of the cell cluster in the public computing environment.Th
6、is paper proposes a priority processing strategy for overloaded computing units.This strategy can reasonably select the order of computing units,prioritizethe processing of heavily loaded units,achieve the overall balance of the system,shorten the time for high load computing units toreach equilibri
7、um,and thus control the operating efficiency of high load computing units.Key Wordspublic computing,HDFS,load balancing,policy schedulingClass NumberTP311126舰 船 电 子 工 程2023 年第 9 期更多业务的处理能力和数据的存储存储能力。设计方法如下:假设把两个数据单元作为处理对象,分别标号为S、T,把S中的数据b迁移到T中,满足以下条件即可:1)数据块b未迁移;2)数据块b没有副本;3)数据块副本所在的计算单元数据保持不变。具体策略如
8、下:1)假设S与T属于同一计算单元,则可以迁移b。理由是数据块b的位置没有跨计算单元:2)遍历b的副本,假设副本的位置与T在同一计算单元,则继续判断步骤3),否则可以迁移数据块b;3)遍历数据块b的副本,假设有副本与S在同一计算单元内,并且通过分析得出此副本不在 S上,则可以迁移数据块b。通过分析上述负责均衡设计的思路和实现策略,可以得出Hadoop负载均衡方法流程是直接先行处理计算单元内的均衡,再进行计算单元间的均衡35,没有优先处理负载超重的计算单元。设想在一个计算单元M中,包含大多数负载重的数据单元(up单元),只有很少的空闲数据单元(off或down单元),该计算单元的承载数据明显超过
9、均值,在此计算单元中只将up单元上的负载迁移到off和down单元,理论上无法实现较好的均衡效果,必须通过负载迁移来解决该计算单元负载承重过高的情形,针对该种情景,Hadoop处理的应对方案是第一步在计算单元内部实行均衡算法,循序遍历的去处理每一个待处理的承载过高的对象单元,逐个将这些对象单元实现承载数据平衡,统计分析可以得出,该过程会显著延长计算单元全部实现均衡的时间68。3超负载处理算法3.1算法描述针对计算单元集群内部承载数据量过大的计算单元,首先需要进行资源占用均衡分析,通过分析采用对应的处理方案,实施方法如下。定义计算单元i的磁盘使用率Pi:Pi=Ui/Ti。其中Ui是计算单元i的已
10、使用空间,Ti是计算单元i的总空间大小。m表示每个计算单元的平均空间占有率。定义变量m,计算方法为m=Aui/Ati。该计算公式中,变量Aui表示所有计算单元的总空间中已经使用的占有量,Ati表示全部所有计算单元的用量总空间。定义阈值变量K:针对每个计算单元负载运行情况,用户可以自定义设定此阈值的值,并优先处理承载高于该阈值的对象单元。定义 on 计算单元:假设计算单元 i 满足公式mm+ts,则这个计算单元可设定为up计算单元。off计算单元:假设计算单元i满足公式m-tsPiPi,则这个计算单元可设定为 down 计算单元。定义变量Ei,Ei表示第i个计算单元在承载过大情形下的数据存储总量
11、值。依次顺序排列第j个计算单元,假设该对象单元承载过大情形下的均衡值为SSj:SSj=L/Gj。若 SSj1,则可以在计算单元内能够实现均衡;若SSj1,则无法通过在计算单元内自行实现数据承载平衡:若SSjK,则表明此计算单元数据承载量超过均衡阈值,在一定程度上影响了计算单元集群的数据处理性能,待处理的优先级较高,急需作为处理对象进行承载数据均衡。定义变量Osj,该变量表示第j个计算单元在承载数据量过大情形下的均衡能力。OSj=Ej/Gj。创建三个队列,分别按照如下对应关系命名:PriorBalanceList(P队列),ForBalanceList(F队列),NextForBalanceLi
12、st(N队列)。把SSi1且OSiK的计算单元存放在队列P中。所有分部在P这个队列中的计算单元,根据上述定义分析,都归结为承载数据量过大计算单元,根据计算得出这些计算单元的内部承载数据量偏大,按照设计思路该对象单元应该需要设定为优先处理的单元进行均衡,均衡方法中按照公式计算SSi,并且按照SSi的降序排列911。3.2策略设计设定一阈值K,该值可以按照用户需要自定义设定,用于分析并确定给出的计算单元的运行情况,判定是否为承载过大计算单元。针对每一个计算单元,定义变量SSi。该变量表示计算单元在内部机制下的平衡能力,计算公式为SSi=Li/Gi。127总第351期为使计算单元i在均衡进程中达到一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 公共 计算 环境 分布式 数据 存储 优化 策略 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。