自适应性数据重删技术在大数据管理中的应用研究.pdf
《自适应性数据重删技术在大数据管理中的应用研究.pdf》由会员分享,可在线阅读,更多相关《自适应性数据重删技术在大数据管理中的应用研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 12 卷第 4 期2023 年 7 月网络新媒体技术Vol.12 No.4Jul.2023自适应性数据重删技术在大数据管理中的应用研究陈正奎(浙江理工大学计算机科学与技术学院杭州 310018)摘要:为解决传统的离线和在线数据备份系统存在的效率低、功能单一、资源开销大等问题,本文构建了自适应性重复数据删除技术的文件备份系统,灵活使用用在线和离线重删技术,动态配置自适应性重删参数,既有效删除重复数据,提升数据备份效率,还充分利用生产环境的硬件计算资源。实践结果表明针对结构化数据,自适应性重删率高达 10 倍左右,且仅占在线重删技术的计算资源开销的 43%,占离线重删技术存储开销的 46%。实
2、践结果验证了自适应性数据重删技术在大数据管理中的可行性,为数据备份和保护提供了一种新的工作思路。关键词:自适应性,数据重删,备份,在线,离线DOI:10.20064/ki.2095-347X.2023.04.007Data Deduplication Technology of Automatic Adaptation inBig Data ManagementCHEN Zhengkui(School of Computer Science and Technology,Zhejiang Sci-tech University,Hangzhou,310018,China)Abstract:Du
3、e to the problems of low efficiency,single function and the resource cost of traditional data backup system,we created adata deduplication technology of automatic adaptation to build a file backup system.It flexibly uses online and offline deduplication anddynamicly set the adaptive data deduplicati
4、on configuration,it can not only effectively delete duplicated data,but also improves databackup efficiency.It can also make full use of the hardware computing resources of the production environment.This applications re-sult shows that it can reach 10 1 data deduplication for the construction data.
5、It only costs 43%computing resource and 46%storageresource compared with online and offline technology separately.It confirms the feasibility in data deduplication technology of automaticadaptation,and also provides a new working solution for data backup and protection.Keywords:automatic adaptation,
6、data deduplication,backup,online,offline本文于 2023-03-26 收到,2023-04-11 收到修改稿。浙江省重点研发“尖兵”攻关计划项目(编号:2023C01119)。0引言随着大数据时代的来临,各行各业数据量出现爆炸式增长,根据最近 5 年的移动流量统计报告1显示,全球数据总量以每年 50%多的速度在增加。特别在全球性的超大型企业集团内部,仅仅结构化的数据量通常就已达到 TB 或者 PB 数据量级。例如金融行业存在大量的文本图片等非结构化数据,其数据量级更加庞大。数据量的增长意味着需要投资更多硬件来增加物理存储空间,同时也带来了更多的资源消耗,
7、更高的维护成本。因此,数据的高速增长亟须新的数据备份策略或技术来应对数据高速增长带来的问题和挑战。4 期陈正奎:自适应性数据重删技术在大数据管理中的应用研究目前,数据存储备份领域的主流技术是重复数据删除 Dedup 技术2。该技术通过算法在文件中找出相同的数据单元,用索引指针代替该数据单元,数据指纹库中仅保留不同的数据单元块,相同的数据块将不会保留,从而达到节省磁盘空间的目的。王兴虎等3设计实现的系统通过基于源端数据重删的技术方法,解决了重删时效性较低和目标端空间受限的问题。高峰4设计了一种网络文件备份系统,通过 File metadata文件索引管理器和 Dedup 服务器配置器,实现数据块
8、和数据索引指纹的存储管理,解决了备份速度慢、网络带宽要求高的问题。荆东星5对分布式重删存储技术进行了研究,不仅支持公有云的数据重删,而且也支持私有云内部的数据重删。但是这些文献所涉及的数据重删技术均基于在线重删模式,即数据先进行去重处理再写入磁盘,并没有考虑生产环境资源有限等实际场景。而在大数据管理应用中,重删技术可以大幅度缩减数据备份规模,但应用该技术的同时也要考虑大数据计算开销大的问题。在大数据时代特别重视用户的前端体验,所有的计算资源尽可能向用户倾斜,而数据重删的处理过程不可避免地会造成一定计算资源的开销。因此在大数据管理中需要提出一种离线和在线结合的自适应性重删技术来解决资源开销问题。
9、本文根据实践设计并实现了一套自适应性数据重删技术的文件备份应用系统,其不仅支持在线删除重复的数据单元,而且也支持离线删除重复数据。同时根据判断条件,支持 2 种重删技术的自适应性切换,这是数据备份领域的一次研究探索和创新性实践。1重删原理数据重删技术能确保存储设备中只有唯一数据单元,从而达到消除存储设备中数据冗余的目的。数据重删技术中的关键环节是首先对文件进行数据分块,然后对分块后的数据单元创建索引。分块的目的是为了能够更小力度地删除重复数据单元,创建索引的目的是为了方便进行重复数据单元快速比对从而提升索引检索效率,或数据还原时通过索引列表快速获取文件所关联的数据块。数据重删技术通过减少网络传
10、输的数据量,从而提升备份速度和降低网络带宽需求。备份文件的处理逻辑是先用分块算法把文件分割成一个个数据单元块,再通过安全哈希算法-1(Se-cure Hash Algorithm 1,SHA-1)或信息摘要(Message-Digest 5,MD5)算法得到每个数据单元块的哈希值作为数据块的数据索引5。有新数据块产生时,把该数据块的哈希值和现有数据指纹库进行比对。如果返回重复结果,则表示该数据块在数据指纹库中已经存在,无需存储;若返回不重复结果,表示该新数据块是新增的,则将该哈希值存入数据指纹库,同时将该数据块内容写入存储设备保存。同理,还原恢复文件的逻辑是先读取文件关联引用的所有索引列表,再
11、根据索引列表依次读取所有数据块,根据所有数据块最终还原文件。1.1数据分块数据的定长分块(fixed-size partion)6,7:将文件以固定长度进行分块,长度通常设置在 4 KB 到 8 KB之间,文件将切割成很多等长数据块,并计算每块哈希值。该方法优点是逻辑实现简单,处理速度快和资源开销小。缺点则是不擅长处理数据变化,不能根据数据变化做出快速调整。譬如,在文件头的某个位置插入一个字节,则根据定长分块算法,从该位置往后所有的数据块字节顺序将重组,造成所有数据块的哈希值改变,但是数据块的大部分内容都是不变的。同理,删除字节也会造成定长分块算法效果非常不理想。数据的内容分块(content
12、-defined chunking)8:和定长分块算法不同,内容分块算法则是根据文件的内容进行数据分块,这是一种变长分块算法。因为文件内容的不同,变长分块算法将耗费资源确定分割边界,因此,文件将分割成很多长度不一的数据块。该内容分块算法的优点是便于处理文件变化,文件内容的新增、变更或者删除操作将仅仅影响变化部分的数据块和哈希值,对于没有变化部分则不影响。缺点则是内容分块算法逻辑实现复杂、处理速度较慢、效率较低。数据的滑动分块(sliding block)9:结合定长分块和内容分块的各自优点,能高效处理数据的插入、修改和删除的操作。其原理是先计算固定分块后的弱 hash 值。如果弱 hash 值
13、不匹配,则继续滑动数据块。若15网络新媒体技术2023 年图 1滑动分块图弱 hash 值匹配,则进一步计算其强 hash 校验值,若不匹配,则继续滑动直至强 hash 校验值匹配,判断重复的数据块并删除,如图 1 所示。因为滑动分块算法结合了定长分块和内容分块的各自优点,可以将数据变化差异产生的影响,限制在真正发生变化位置的前后少数几个分块上,有效解决了数据变化对分块效率的影响和处理速度较慢的问题,这是滑动分块算法主要的突破。1.2重删的位置源端重删10,11:数据去重处理位置发生在源端。在虚拟机或物理机上,源端数据转移至目标端之前,数据去重的处理逻辑发生在多个源端设备上,因此会对源端造成一
14、定的资源消耗,同时需要不断访问目标端,因此会造成带宽传输压力增大,整个过程花费时间较长。优点则是可以大幅降低目标端存储设备的空间大小,起到节约存储空间的作用。因此基于源端的数据去重技术呈现分布式、局部性的特点,在实践场景中,通常应用于数据量较小,时效性不高的业务场景。目标端重删10,11:数据去重处理位置发生在目标端,不用考虑源端分散的部署情况,也不采用基于源端的局部去重操作。目标端重删是基于全局的一次性数据去重操作,所有源端的数据索引传输至目标端,和目标端的数据指纹库进行全局比对去重,一次性删除重复的数据块。因此目标端重删去重效率更高,尤其适合大数据量的备份,现在较多采用目标端重删技术。1.
15、3重删的时间节点在线重删11:指数据在写入磁盘之前进行重删。先根据数据索引和数据指纹库的比对结果,再执行数据写入磁盘操作,如图 2 所示。具体过程:将数据索引和数据指纹库的进行比对,如果重复,则执行重删操作;如果不重复,则把新增数据写入磁盘。由于在线重删需要生产环境和存储设备做索引比对,因此会对生产环境产生一定程度的计算资源开销,该在线重删技术往往适用于生产环境的计算资源有富余的备份场景。离线重删11:离线重复数据删除,也叫后处理重删。指数据内容先写入磁盘后,再根据数据索引和数据指纹库的比对结果,判断是否进行重删处理,如图 3 所示。具体过程:数据内容主体先从生产环境写入到后端的暂存磁盘,再执
16、行重删逻辑判断,最后将重删处理后的数据写入到磁盘。由于离线重删技术是数据先写入磁盘后再执行重删的逻辑处理,整个重删的逻辑处理过程全部在存储设备完成,因此不会对生产环境产生额外的计算资源开销,不会对正常业务处理造成影响。该技术的缺点是需要存储设备开辟一块暂存区存储数据内容,因此需要额外较多的存储空间。图 2在线重删图图 3离线重删图自适应性重删:综合了在线重删和离线重删各自的技术优点。当系统满足离线重删技术的判断条件254 期陈正奎:自适应性数据重删技术在大数据管理中的应用研究图 4自适应性重删流程图时,采用离线重删,否则采用在线重删,如图 4 所示。通常选择采用离线重删技术的判断条件是计算资源
17、、网络带宽、暂存区空间。忽略其他技术细节,当源端的计算资源繁忙成为瓶颈,额外新增的计算处理将极大加重当前环境的负担,则通过离线重删技术的“计算后置”把压力传导给目标端,尽量避免源端生产环境的计算处理压力。这种“后置处理”的优点是源端处理逻辑简单,把数据分块和建立索引等大量复杂处理转移至目标端,极大避免了源端计算资源的消耗。离线重删的本质是“后置处理”,但仍须同时满足其他 2个条件,足够的网络带宽和暂存区空间,因为若这 2 个条件成为瓶颈,源端 iowait 将拉长,从而导致系统压力将重新回到“前端”,因此必须保证网络带宽和暂存区资源的充裕。通常,适应性重删的技术应用场景构建于光纤存储区域网络(
18、StorageArea Network,SAN)局域网和固态硬盘(Solid State Disk,SSD)暂存区。其中,网络带宽和暂存区空间是基础判断条件,系统的重点判断是源端的计算资源情况。当任意一个判断条件不满足时,系统将回归在线重删。实现自适应性重删的关键是保证暂存区有足够空间容纳源端文件。但是因为目标端空间有限,暂存区空间必须适度,且和目标端空间占比适度平衡,这个占比通常在 5%25%,可根据实际情况来动态配置。为避免暂存区溢出,可供的技术路径选择有排队机制、动态缓冲池机制、源端文件压缩和数据分块粒度调整等方法。为实现成本和逻辑处理尽量简单高效,通常采用排队机制或其他几种路径组合。通
19、常若暂存区溢出,则会严重影响离线重删的正常工作,这种情况发生在大量文件的并发操作引起暂存区空间占满,因此引入排队机制可有效防止空间溢出。当空间占比达到预设阈值,后续文件根据排队机制进入排队序列,等待前方文件操作完成腾出空间后再写入暂存区。自适应性重删的排队机制引入了 entry验证,即每个进入暂存区的文件赋予一个 entry 标识,是其在目标端操作全流程的唯一合法标识证明,超出阈值位于排队序列的文件将不再赋值,保证后续文件因没有合法 entry 无法进入暂存区。排队机制可有效保证暂存区空间支持离线重删发挥作用,这里若使用 token 令牌验证12则更加安全,但 token 令牌的加解密过程和
20、3 次握手机制会造成一定的系统开销,因此使用 entry 标识用于排队机制可满足备份系统。综上,自适应性重删技术比传统重删技术在以下方面有较大改进:综合利用各种重删技术方面更加灵活,能通过动态配置网络、存储或计算开销等参数,根据实际场景自动切换重删技术,从而达到提升大数据备份管理效率的目的;在资源开销和利用方面更加完善,在兼顾数据备份效率的前提下,能合理平衡源端和目标端的资源开销,将源端繁忙的部分逻辑计算通过“后置处理”转移至目标端,从而达到整体系统资源的最优化利用。2重删应用设计2.1数据结构数据索引的数据结构:其中,hash value:数据块 MD5 的哈希值;block pos:数据块
21、的起始位置;block len:数据块的长度;datenew:数据块的创建日期;date modified:数据块的修改日期;count:数据块的引用次数。当新增一个数据块写入存储设备,也新增一条数据索引,同时赋值 count 值为 1,表示该数据块被一个文35网络新媒体技术2023 年件关联引用。当新增另外一个重复的数据块时,无需写入真正的数据块内容,同时 count 值加 1,表示该数据块被 2 个文件关联引用,2 个文件同时关联该数据块,达到数据重删节省存储空间的目的。count 值可顺序递增,同理,当删除 1 个文件时,count 值减 1,直至 count 值变为 0,表示该数据块不
22、再被任何文件关联引用。此时系统自动触发删除机制,删除该数据索引和数据块。文件的数据结构:其中,file id:文件唯一标识;file name:文件名称;file size:文件大小;block number:文件关联的数据块数量;hash value list:文件关联所有的哈希值列表;file date new:文件创建日期;file date modified:文件修改日期。当新创建或者变更一个文件时,根据定长或变长算法将文件分成 n 个数据块,每个数据块对应一个数据索引,其中 hash value list 字段保存了所有的数据索引的哈希值。当删除一个文件时,该文件的数据结构将被同时删
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自适应性 数据 技术 数据管理 中的 应用 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。