基于fastNTsync算法的海量小文件同步优化方法研究.pdf
《基于fastNTsync算法的海量小文件同步优化方法研究.pdf》由会员分享,可在线阅读,更多相关《基于fastNTsync算法的海量小文件同步优化方法研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、计算机时代 2023年 第10期0 引言随着云计算、物联网和大数据技术的发展,海量数据的传输和存储成为了一个亟待解决的问题。对于小文件的传输,由于其“个体小、总量多”1的特点,给数据传输带来了很大的困难,同时也带来了存储空间浪费、经济损失2等问题。目前,已经有多种小文件传输优化方案(如基于云计算3-4、并行计算5-6、多线程和UDP协议7-8等),但是仍然存在依赖云计算服务,依赖硬件和网络设备以及数据丢失或重复传输等问题;Windows操作系统中基于NTFS分区格式的小文件传输方案表现良好,但仍面临使用负担较大、效率低、跨网络海量小文件同步等问题;基于Windows操作系统的小文件传输方案Ro
2、bocopy、Fastcopy、TeraCopy、Synctoy 等,支持多线DOI:10.16644/33-1094/tp.2023.10.004基于fastNTsync算法的海量小文件同步优化方法研究*华南1,2,朱彦霞3,4(1.河南中广智媒科技有限公司,河南 郑州 450000;2.中国广电河南网络有限公司;3.河南省职工医院;4.河南省郑州工人疗养院)摘要:为解决海量小文件同步过程中的性能瓶颈,提出一种基于fastNTsync优化方法。综合运用NTFS分区表快照技术、NTFS$MFT分析技术和文件打包分区组合拷贝技术,来减少数据包往返时间浪费,提升带宽使用率,提高数据同步速度和效率。
3、实验结果表明,该方法在处理大量小文件时具有显著优势,能提高同步速度和效率,并减少数据传输量和时间浪费。该基于fastNTsync算法的海量小文件同步优化方法对相关领域的研究及应用具有参考价值。关键词:海量小文件;数据同步;数据传输;优化方法中图分类号:TP399文献标识码:A文章编号:1006-8228(2023)10-17-05Research on optimizing the synchronization of massive smallfiles based on fastNTsync algorithmHua Nan1,2,Zhu Yanxia3,4(1.Henan Zhonggu
4、ang Intelligent Media Technology Co.,Ltd,Zhengzhou,Henan 450000,China;2.China Radio and Television Henan Network Co.,Ltd.;3.Henan General Hospital;4.Zhengzhou Workers Sanatorium of Henan Province)Abstract:To solve the performance bottleneck in the synchronization process of massive small files,the f
5、astNTsync optimizationmethod is proposed.The NTFS partition table snapshot technology,NTFS$MFT analysis technology,and file packing partitioncombination copying technology are comprehensively applied to reduce data packet round-trip time waste,improve bandwidthutilization,and enhance data synchroniz
6、ation speed and efficiency.Experimental results demonstrate that this method has significantadvantagesinhandlinglargenumbersofsmallfiles,improvesthesynchronizationspeedandefficiency,andreducesdatatransmission volume and time waste,which has reference value for research and application in related fie
7、lds.Key words:massive small files;data synchronization;data transmission;optimization method收稿日期:2023-05-22*基金项目:河南省软科学研究计划项目(No.222400410151、No.222400410184);河南省医学科技攻关计划联合共建项目(No.LHGJ20210261、LHGJ20220248);河南省科技攻关项目(No.232102310491)作者简介:华南(1981-),男,河南郑州人,本科,工程师,CCF会员,主要研究方向:人工智能、分布式计算、智慧医疗等。通讯作者:朱彦
8、霞(1981-),女,河南郑州人,研究生,高级工程师,主要研究方向:大数据、软件与理论研究、数学统计、软件开发等。17Computer Era No.10 2023程传输、断点续传等功能,然而相比Linux平台,存在学习使用负担较大的问题、跨网络海量小文件同步、传输效率低、高性能产品收费成本高等问题;Windows操作系统中活动目录技术支持DFS文件服务并提供强大的数据同步功能,但其依赖许多服务和配置才能使用,在技术上缺乏灵活性。此外,通过RPC映射目录的同步方法可以通过优化拷贝方式进行同步9,但由于底层协议的原因,当传输海量文件时,整体性能会下降,特别是当传输中断时,进行数据对比将耗费更多时
9、间。因此,海量小文件同步传输及性能优化问题是个技术难点,也是当今云计算技术研究的一个热点。为了解决这个问题,需要设计出更高效、可靠、安全的同步传输方案,并通过优化算法和技术手段来提高同步效率和速度,降低成本,从而更好地满足人们日益增长的数据传输需求。1 算法设计在标准的Windows操作系统中,进行两个终端之间的文件传输(例如,从PC1到PC2传输1000个文件)如图1所示。标准的Windows操作系统会对每个文件执行一次完整的磁盘和网络传输流程,无论文件大小如何,这导致在传输大量文件时速度非常慢。此外,网络传输时协议的握手次数并没有减少,也会导致传输速度下降。图1文件传输过程示例在不考虑 L
10、OFS(Loss of Service Faults)的情况下,传输速率(R)与拥塞窗口和数据包往返时间之间存在一定的关系。具体来说,传输速率与拥塞窗口和数据包往返时间的乘积成正比,即:R=y/RTT其中,y表示当前拥塞窗口的大小,即网络中可以发送的数据包数量,RTT表示数据包往返时间,即从发送端发送一个数据包到接收端并收到确认的时间。上述关系式表明,当拥塞窗口y增加或数据包往返时间RTT减小时,传输速率R也会相应增加,反之亦然。这是因为当拥塞窗口y增加时,网络中可以发送的数据包数量也会增加,传输效率提高;而当数据包往返时间RTT减小时,数据包能够更快地在发送端和接收端之间传输,从而也提高了传
11、输效率。在考虑LOSF传输情况下,在慢启动阶段,拥塞窗口大小的计算公式为:y=min(W,CWND)其中,y表示当前拥塞窗口的大小,W表示拥塞窗口的上限,CWND表示当前的拥塞窗口大小。在慢启动阶段,CWND的初始值为1,每经过一个往返时间RTT,CWND 的值就会加倍,即 CWND=CWND*2。因此,可以将拥塞窗口y的计算公式表示为:y=min(W,2n)其中,n表示当前慢启动阶段经过的往返时间RTT的个数,W表示拥塞窗口的上限。在考虑LOSF传输情况下,传输速率为:R=(MFS/RTT)*sqrt(2/p)其中,R表示传输速率,MFS表示文件集的平均大小,RTT 表示往返时间,p 表示丢
12、包率。这个表达式中,sqrt(2/p)表示LOFS因子,描述了网络中丢包率对传输速率的影响。在不考虑丢包的情况下,传输速率与文件大小呈现正相关性,即随着文件大小增加,传输速率会相应增加;如果传输文件数量过多,会产生多个RTT浪费,文件过小,网络带宽不能充分利用,对吞吐量产生影响、效率低下。虽然有一些第三方免费和收费软件可在一定程度上提升大量小文件传输效率,例如从Linux上移植的Rsync,但由于这些软件是基于Linux开发的,对于中文和Windows平台特殊的NTFS存储技术兼容性较差。当同步的文件过大或文件数量过多时,也会出现兼容性问题。对此,可以利用Windows 7及其后续操作系统的特
13、性,结合最新的设计思路来实现文件的高速同步。本文提出并构建了一种高效的 Windows 文件同步算法fastNTsync,该算法基于以下三种技术优势:NTFS分区表快照技术该技术能够在不中断文件系统的情况下对NTFS分区表完成快照,从而提高同步的效率。快照可用于18计算机时代 2023年 第10期记录分区表的状态,以便在同步期间快速检测和比较分区表的变化。NTFS$MFT分析技术该技术可分析NTFS文件系统的主文件表($MFT),以便快速获取文件信息。这有助于减少网络传输量和提高同步效率。文件打包分区组合拷贝技术该技术可将文件按照一定的规则打包成一个包,并在传输过程中对包进行组合拷贝。这有助于
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 fastNTsync 算法 海量 文件 同步 优化 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。