备份系统运行数据收集及分析架构设计.docx
《备份系统运行数据收集及分析架构设计.docx》由会员分享,可在线阅读,更多相关《备份系统运行数据收集及分析架构设计.docx(18页珍藏版)》请在咨信网上搜索。
1、 备份系统运行数据收集及分析架构设计 【导读】本文从个人运维实践经验出发,研究设计备份系统运行数据采集及分析方法,从而能更加洞察系统的运行规律,希望对同行有一定的借鉴和参考价值。前言信息系统的运行虽然遵循一定的运行规律,但也呈现出动态的、易干扰、难以预测的特征。对于 IT 系统运维人员来说,我们最关注的是系统的稳定运行,有时会过于担忧系统的运行风险,有时也对某些运行中的风险麻痹大意,甚至在面对潜在的、未知的故障时,还会十分恐慌。恐惧源于未知, IT 运维人员需要克服这种恐惧,让运维从容不迫。本文将从个人运维实践经验出发,研究设计备份系统运行数据采集及分析方法,从而能更加洞察系统的运行规律,希望
2、对同行有一定的借鉴和参考价值。1. 需求数据备份是为应对潜在的数据丢失风险,而将业务系统中的数据加以复制并转储到备份存储的工作。为统一调度不同的数据备份作业,集成管理数据备份服务器以及不同类型的备份存储介质,企业需要规划建设与业务系统架构相适应的数据备份系统。作为数据安全的一道重要防线,稳定运行的数据备份系统是至关重要的。备份系统运维侧重于关注备份作业是否出现报错,备份存储是否存在异常,出现异常或故障时如何去排查、分析、干预等方面。基于备份系统运行数据的收集及分析,来构建备份系统较全面的数字模型,主要用于解决以下三个痛点: 缺乏有效的故障预警:粗粒度、滞后性的运维方式增加了备份系统的故障率,进
3、而影响了备份作业的成功率。 故障溯源困难:故障会导致运行错误,故障分析定位的过程则是从运行错误回溯到故障,找出错误源头,这也是传统运维方式的痛点之一。 系统管控能力不足:备份系统 不同于一般的业务系统,往往会忽略了运维的过程管理,包括配置管理、变更管理、容量管理等。如果系统管控能力不足,会大大增加运维风险,严重影响系统的稳定运行。2. 设计策略部分大数据、智能化运维项目更注重于形,即先搭平台,数据收集起来,再慢慢看能做什么样的数据分析和应用。这样的设计策略没有认识到数据质量的重要性,也轻视了系统运行规律和运维经验的指导作用,系统的有效性大大降低。如果数据质量不高或缺失了某些关键指标数据,数据分
4、析的结果必然会有偏差。因此,总体设计策略应先关注领域分析,即有必要深入分析备份系统的整体架构,了解系统各组件之间的关系、数据流路径;然后是数据的场景化设计,针对具体的运维场景确定数据分析及应用场景,再追溯确认需要采集的指标数据;最后详细设计数据收集和数据分析方法。整体设计流程如图 1 所示:图 1. 设计策略流程图3. 领域分析3.1 备份系统整体架构备份系统主要包括备份管理系统、备份客户端、备份网络以及备份存储介质这几种组件,如图 2 所示:图 2. 备份系统整体架构图 备份管理系统包括备份管理软件和备份管理服务器,承担备份作业调度管理、备份存储介质管理等责任,是典型的 C/S 架构,读取备
5、份客户端数据,并将数据写入备份介质中。 备份客户端执行备份任务的业务主机,是用户感知层,一般需安装备份软件客户端代理程序,并与备份服务端通信。 备份网络承担备份数据流的传输任务,一般分为基于 TCP/IP 的备份 LAN 和基于 FC 的备份 SAN 。 备份存储介质承担备份数据存储的备份设备或介质,常见的包括磁带库,虚拟带库, NAS 存储等。3.2 备份数据流备份系统的数据流主要包括备份作业数据流和数据恢复数据流,如图 3 和图 4 所示。需要强调的是,数据流传输并不是一个直接调用返回的动作,而是一个持续的数据传输过程,在数据流传输路径的任意一个环节出现堵塞或者故障,备份或恢复作业即会受到
6、影响;另外,由于源端或目的端重复删除技术的应用,备份与恢复的数据流并不对称,需要分别分析。图 3. 备份作业数据流图图 4. 恢复作业数据流图4. 场景设计4.1 故障管理场景故障管理是运维场景中最重要的一环,一般可分为事前、事中、事后三个阶段。事前阶段的重点是评估分析,做好故障预防;事中阶段则包括故障告警、故障处理和恢复;事后阶段需要做好分析改进。下文将对备份系统常见的故障场景做具体分析。4.1.1 作业时长增加数据备份和恢复作业的时长增加是一种隐性故障,一般影响较小。但对于关键业务系统来说,超出备份时间窗口,带来的影响有时也是无法容忍的;而数据恢复作业时长有时也决定了故障恢复时间长短。数据
7、备份恢复时长一般随数据量的增长而缓慢增长,但异常情况下,备份恢复速度也会降低。在事前阶段,我们可以判断数据量是否有突增,可以提前调整备份时间;事中阶段可关注数据吞吐量,如达不到速度预期,甚至严重超出备份时间窗口,可能需要及时中止备份恢复作业;事后阶段主要是排查定位速度下降的原因,主要排查方向是备份网络带宽被占用、读取数据源的速度下降以及写入备份存储的速度下降这三类。4.1.2 硬件故障硬件故障的影响依赖于硬件冗余情况,备份服务器、备份网络、磁带机、磁带等等硬件都需要有冗余,这种问题对备份系统的影响一般是一次性的。除了硬件设备自身故障以外,还可能存在兼容性问题导致的硬件故障问题,这类问题可能会间
8、歇性的影响到备份作业的成功率,定位难度也比较高。在事前阶段,我们需要关注硬件自身的状态,可提前预防硬件故障带来的影响;事中阶段,一般来说硬件故障会导致作业报错,即使硬件自身状态正常,但通过运行日志能判断到硬件故障的可能性较大,需要及时将故障硬件排除出去,先保障备份作业的成功率;事后阶段,综合运行日志情况和故障处理情况,可进一步去定位是硬件自身故障还是兼容性问题,为故障最终处理提供依据。4.1.3 软件异常一般软件异常指的是软件提供的服务不达预期,可能是代码缺陷或服务异常终止,可以分为前端和后端异常,前端异常会导致备份恢复作业报错,后端异常主要是影响 server 后端作业。前端异常涉及到备份软
9、件 server 和 client , client 影响的是使用该代理的备份作业, server 端的影响较大。在事前阶段,我们需要确认备份软件进程和服务端口是否正常,防患于未然;在事中阶段应根据作业报错或受影响情况,结合运行日志去判断异常的软件组件,从而权衡需要如何去干预软件运行中异常;事后阶段则需要复盘运行状态和运行日志,为后续类似的软件异常能预防和定位,提供更多数据依据。4.1.4 资源争用备份系统是一种 C/S 架构系统,会共享备份服务器和备份存储资源。资源共享会带来资源争用,也是资源容量不足引起的。典型的资源争用引起的故障场景主要有磁带机可用数量不足、备份服务器计算资源或网络资源占
10、满、备份存储容量不足或服务能力不足,会带来备份作业报错或性能下降导致的作业超出时间窗口等不利影响。在事前阶段,我们需要做好资源调度规划,合理配置不同时间段的备份任务;在事中阶段,可以通过监视资源调度情况和运行日志中的资源等待情况,及时判断出是否发生了资源争用,可及时中止以确保优先级更高的作业任务的完成;事后阶段则是根据运行中出现的资源争用情况来修改资源调度规划,必要时也可以申请更多的备份资源。4.2 运维管理场景运维管理是通过制度化、流程化、标准化的运维手段来指导 IT 系统的运维,是一套持续改进的机制。相比故障管理场景,运维管理场景更关注的是在平时运维工作中如何去应用备份系统运行数据,以达到
11、持续改进优化的目的。通过数据收集及数据分析,可以更好地实现对备份系统管控,主要集中在下面几个场景。4.2.1 数据管理数据管理的目标是保障数据安全可靠,对备份系统来说,个人认为主要是三点内容需要关注:一是定时备份作业是否成功,可通过收集备份作业结果来确认;二是重要的备份数据通常还会做数据复制,保持主备站点两到三份相同的数据备份,需要定期确认数据是否成功同步;三是备份的数据需要有数据恢复验证机制,可定期确认备份介质中数据的完整性,并针对不同数据类型的备份做数据恢复,以验证数据正确性。4.2.2 容量管理备份系统容量管理工作中主要关注的是数据存储和性能两方面的容量场景。数据存储容量场景关注多的是备
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 备份 系统 运行 数据 收集 分析 架构 设计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。