运维考勤标准规范.doc
《运维考勤标准规范.doc》由会员分享,可在线阅读,更多相关《运维考勤标准规范.doc(34页珍藏版)》请在咨信网上搜索。
1、 运维驻场管理规范一、驻场服务简介为保证集中统一存储系统软硬件产品、备份系统正常运营,我方提供1名具备2年工作经验工程师进行驻场服务。驻场服务地点为广电总局监管大楼18层,工作环境由数据中心提供。工作时间为法定工作日5*8小时、重大节日和数据中心规定重要保障期7*24小时。驻场服务工程师需按规定完毕常规巡检服务,并提交巡检报告;在设备(系统)浮现故障时,最短时间恢复业务运营,并排除故障,编写故障报告。1.1驻场服务浪潮提供1名驻场工程师,在法定工作日内提供8小时现场值守服务,重大节日和重要保障期内提供24小时现场值守服务。驻场人员重要服务内容涉及但不限于如下内容:1) 服务范畴内设备/系统寻常
2、运营维护,保证系统可靠性和可用性;2) 备份软件客户端维护;3) 随时理解顾客对集中存储系统访问需求,协助进行故障解决和应急处置,并及时反馈处置状况;4) 迅速、及时和精确反馈和解决突发事件或紧急设备故障;5) 提供产品巡检日报、周报及月报;6) 完毕投标方布置有关工作。1.2巡检服务日巡检:维保服务产品清单,提供巡检服务,对所有设备(系统)提供每个工作日2次常规巡检服务,并填写巡检报告;周巡检:每周1次深度巡检服务,检查常规巡检报告,填写深度巡检报告;月巡检:每月1次月度深度巡检服务,执行周巡检所有内容,制作性能曲线。详细内容如下:1.2.1日巡检:硬件设备及链路巡检 产品清单中产品运营状态
3、,检查各链路连接状态。记录设备清单列表中设备状态批示灯状态。1.2.2日巡检:集中存储系统巡检 检查磁盘阵列状态,涉及RAID组状态、卷状态。检查存储文献系统运营状态,涉及MDS系统状态、挂在卷状态、SMB服务状态。记录存储系统总量、增量、剩余量、OST卷使用率、文献系统实时读写速率,并按照规定及时清理空间。a.检查磁盘阵列状态b.RAID组状态c.磁盘状态d.检查存储系统MDS运营状态(在元数据节点上运营top命令)e.检查存储系统MDS HA状态(在元数据节点上运营crm_mon命令)f.检查存储系统SMB服务状态(在接口节点上执行service smb status 命令)g.检查存储系
4、统总量、增量、剩余量、OST卷使用率(在接口节点上执行lfs df h命令) h.检查存储系统CTDB服务状态(在接口节点上执行service ctdb status命令)1.2.3日巡检:备份系统巡检(远程桌面到10.242.110.159,通过Xshell ssh到10.242.110.105,运营NBU备份软件)检查磁带库中磁带使用状况,磁带卷池剩余容量。检查备份服务器运营状态,检查备份文献备份及数据路备份作业与否正常执行,查看备份日记;若备份失败,应急状况下针对失败作业进行手动备份作业,并及时解决故障。记录检查成果和执行成果。检查当天备份作业与否成功执行检查剩余可用磁带数目每月初手动设
5、定新备份方略,划分相应资源池,保证备份作业持续性。依照带库容量,运维驻场人员要依照客户需求,完毕磁带入库、出库、过期等操作。1.2.4周巡检:工作规定为保证集中统一存储系统软硬件产品、备份系统正常运营,我方提供1名具备5年工作经验工程师与驻场工程师进行每周1次深度巡检服务,执行如下工作l 执行日巡检内容。l 收集集中存储中MDS节点、OST节点、转换节点日记并分析。l 收集光纤互换机、以太网互换机、磁盘阵列日记并分析。l 收集备份服务器及磁带库日记并分析。l 依照日记分析构造,提供合理化建议方案。l 依照客户需求,执行数据删除,维护存储剩余空间。 分析成果若浮现系统不可用现象,现场调查浮现故障
6、因素,记录浮现时间,描述问题现象及影响,提出解决方案并现场解决问题。出局故障分析报告及故障,内容涉及故障信息描述、故障现象分析、故障导致影响、故障导致损坏或丢失文献列表、故障解决过程、问题改进办法等。1.2.5周巡检:收集日记并分析分析成果若浮现系统不可用现象,现场调查浮现故障因素,记录浮现时间,描述问题现象及影响,提出解决方案并现场解决问题。出局故障分析报告及故障,内容涉及故障信息描述、故障现象分析、故障导致影响、故障导致损坏或丢失文献列表、故障解决过程、问题改进办法等。日记收集办法如下:l 登录到mds:10.242.110.1l 使用xshell ssh 10.242.110.1 到ro
7、ot目录下(cd /root);l 在执行ls命令,显示root目录下所有文献,log后缀名为.sh文献为收集日记脚本。l 执行这个脚本(./文献名)。l 在IO节点和接口节点上所有执行一遍,单独收集; l 执行完上面脚本后,登录mds2(10.242.110.2),在mds2home目录下生成所有节点message收集。l 再登录Mds1,收集/var/log/cfs这里面内容。l 登录接口节点收集日记中:日记途径/var/log/messages。1.2.6周巡检:执行数据删除执行原则:系统容量局限性百分之90时,及时进行数据删除,避免影响系统可用性。执行流程:由巡检人员发起,存储负责人责
8、任确认,业务部负责人确认删除内容,巡检人员执行删除操作,执行完毕之后,再顺次找业务部负责人、存储负责人确认。执行命令:rm rf *严格填写数据删除单据,按单据批示操作。1.2.7月巡检:工作规定为保证集中统一存储系统软硬件产品、备份系统正常运营,我方提供1名具备5年工作经验工程师与驻场工程师进行每月1次深度巡检服务,执行如下工作:l 执行日巡检内容。l 执行月巡检内容。l 分析日巡检报告及周巡检报告,提出分析成果l 针对故障问题,浮现2次及以上问题,需针对问题彻底解决,杜绝在下一巡检周期再次浮现类似问题。l 提交日巡检报告、周巡检报告、月巡检报告,向数据中心报告月度巡检状况。l 提交统一存储
9、系统容量曲线、磁带库容量曲线报告等。l 检查存储系统网络IP分派状况1.2.8月巡检:绘制存储系统、带库每日增量图文献系统容量增长曲线2.2磁带库容量增长曲线图1.2.9月巡检:检查存储系统网络分派状况按照如下表格分类及相应关系,检查存储系统网络分派状况与否对的。节点网络IP AS10000节点节点IPMI(监控网络)节点类型管理网络(千兆网络)数据网络(万兆网络)成果MDS0110.242.110.31控制节点10.242.110.1(eth0)10.242.10.1(bond0)正常MDS0210.242.110.32控制节点10.242.110.2(eth0)10.242.10.2(bo
10、nd0)正常IO0110.242.110.33数据节点10.242.110.3(eth0)10.242.10.3(bond0)正常IO0210.242.110.34数据节点10.242.110.4(eth0)10.242.10.4(bond0)正常IO0310.242.110.35数据节点10.242.110.5(eth0)10.242.10.5(bond0)正常IO0410.242.110.36数据节点10.242.110.6(eth0)10.242.10.6(bond0)正常IO0510.242.110.37数据节点10.242.110.7(eth0)10.242.10.7(bond0)正
11、常IO0610.242.110.38数据节点10.242.110.8(eth0)10.242.10.8(bond0)正常SC0110.242.110.39合同转换节点10.242.110.9(eth0)10.242.10.9(bond0)正常SC0210.242.110.40合同转换节点10.242.110.10(eth0)10.242.10.10(bond0)正常IO0710.242.110.41数据节点10.242.110.11(eth2)10.242.10.11(bond0)正常IO0810.242.110.42数据节点10.242.110.12(eth2)10.242.10.12(bo
12、nd0)正常IO0910.242.110.43数据节点10.242.110.13(eth2)10.242.10.13(bond0)正常IO1010.242.110.44数据节点10.242.110.14(eth2)10.242.10.14(bond0)正常IO1110.242.110.45数据节点10.242.110.15(eth2)10.242.10.15(bond0)正常IO1210.242.110.46数据节点10.242.110.16(eth2)10.242.10.16(bond0)正常SC0510.242.110.47合同转换节点10.242.110.17(eth4)10.242.1
13、0.17(bond0)10.242.10.18(bond1)正常SC0610.242.110.48合同转换节点10.242.110.18(eth4)10.242.10.19(bond0)10.242.10.20(bond1)正常SC0710.242.110.49合同转换节点10.242.110.19(eth4)10.242.10.23(bond0)10.242.10.24(bond1)正常SC0810.242.110.50合同转换节点10.242.110.20(eth4)10.242.10.25(bond0)10.242.10.26(bond1)正常存储单元IPProductCtlA-port
14、1CtlB-port1状态AS1000G6-H_110.242.110.5110.242.110.52正常AS1000G6-H_210.242.110.5310.242.110.54正常AS10.242.110.6110.242.110.62正常设立存储阵列IP地址ProductCtlA-port1CtlA-port2CtlB-port1CtlB-port2状态AS1000G6-H_310.242.110.6310.242.110.6410.242.110.6510.242.110.66正常AS1000G6-H_410.242.110.6710.242.110.6810.242.110.691
15、0.242.110.70正常光纤互换机网络FC SwitchIP状态Switch110.242.110.71正常Switch210.242.110.72正常Switch310.242.110.73正常Switch410.242.110.74正常Switch510.242.110.75正常Switch610.242.110.76正常万兆互换机网络10Gb SwitchIP状态Switch110.242.110.77正常Switch210.242.110.78千兆互换机Gb Switch状态Switch1正常Switch2带库网络浪潮磁带库IP设立没有按照顺序进行设立,单独指定了一种IP:i600
16、0IP状态带库10.242.110.160正常备份服务器备份介质服务器(Media Server)IP设立为:备份服务器管理IPIPMI IP状态sv110.242.110.10510.242.110.107正常sv210.242.110.10610.242.110.108正常二、故障响应服务承诺及完毕承诺指标采用办法2.1总体方案针对驻场服务和巡检服务,响应工程师进行双重考核,签到包括现场签到及我方公司签到两套签到体系,保障工程师准时上下班。驻场工程师和巡检工程师每月向客户和项目经理提交当月巡检报告,用于考核有关工程师工作。本方案按故障级别提供不同故障响应服务,力求在最短时间内恢复业务运营,
17、并排除故障,每季度提交故障排除报告,报告内容涉及:故障排除过程描述及故障分析、服务清单等。我方针对故障解决向数据中心提出如下承诺:级别故障阐明服务承诺I级紧级故障l 存储系统不能提供服务l 存储系统性能下降严重l 网络中断l 冗余节点同步浮现故障l 同一RAID组浮现2块以上硬盘故障驻场时间:现场工程师实时响应;远程协助1小时内响应,16小时到达现场非驻场时间:现场工程师1小时响应;远程协助2小时内响应,16小时到达现场II级严重故障l 存储系统可以提供服务,但发现严重告警l 备份系统无法提供服务l 服务节点无发提供冗余功能l 网络性能异常驻场时间:现场工程师实时响应;远程协助4小时内响应,2
18、4小时到达现场非驻场时间:现场工程师1小时响应;远程协助4小时内响应,24小时到达现场III级普通故障l 存储系统可以提供服务l 浮现普通警告l 同一RAID组一块硬盘故障驻场时间:现场工程师实时响应;远程协助4小时内响应,48小时到达现场非驻场时间:现场工程师1小时响应;远程协助4小时内响应,48小时到达现场相应办法:项目经理进一步到工作每个环节,参加协调并督促有关部门完毕故障解决。针对解决成果,项目经理睬按季度将完毕状况及体现反馈到各部门主管,加入到我方公司KPI考核。2.2详细方案规划存储系统核心部件采用热备份形式,单个设备浮现故障不会立即影响到系统正常运营,但必要及时发现并加以解决,以
19、免导致系统可靠性减少.一旦发现故障发生,一方面要鉴别故障类型和故障位置,然后进行解决。2.2.1单电源故障故障现象:电源批示灯变红。影响范畴:但电源故障在短时间内不影响系统正常运营,但长时间也许导致设备供电不稳定,系统可靠性下降。应急预案:及时联系设备提供商,更换电源模块。2.2.2温度报警故障现象:左前面板批示灯亮。影响范畴:温度过高也许导致系统运营不稳定甚至宕机,影响整个存储系统使用。应急预案:及时采用降温手段,检查电扇运营状况,联系设备提供商鉴别故障位置,更换电扇或其她故障部件。2.2.3磁盘故障故障现象:异常状况下磁盘批示灯显示红色或黄色。如果浮现刺耳报警声阐明存储单元有问题,需要登录
20、管理节点查看。可以远程登录10.242.110.159服务器,顾客名:administrator,密码:1!。该服务器上有存储单元管理软件。登录存储单元管理软件,如果有问题,界面会有红色报警提示。影响范畴:单块磁盘故障不影响系统运营和使用。应急预案:及时联系设备提供商技术人员进行磁盘重建。2.2.4解决器故障故障现象:批示灯会显示为红色。影响范畴:单解决器故障不影响系统运营和使用。应急预案:及时联系设备提供商技术人员进行更换。2.2.5Windows客户端不能访问故障现象:windows客户端无法访问存储系统。影响范畴:所有windows客户端无法正常工作。应急预案:1)网络通信与否正常:使用
21、ping网络其她IP地址与否通信正常来确认,确认windows本地IP地址可用。 2)权限与否正常:vim /etc/samba/smb.conf查看对各共享权限定义,修改后保存退出,重启smb服务。3)SMB服务与否正常:以root身份登入合同转换节点,通过service smb status查看samba服务状态;若没有启动,分别使用service smb start、service winbind start启动服务。4)ctdb与否正常:ctdb status、ctdbip检测ctdb状态及各节点分派到ip;若ctdb不正常,vim查看各samba服务器上etc/ctdb/syscon
22、fig、/etc/ctdb/nodes、/etc/ctdb/public_addresses三文献内容,保证其一致;查看/etc/ctdb/sysconfig中规定共享目录下锁文献与否存在;修改后依次重启ctdb、smb服务。三、重大节日和重要保障期保障服务l 我方在重大节日和重要保障期内提供24小时驻场服务。l 在重大节日及重要保障期前一周做一次深度巡检服务,保障系统无端障运营。l 在驻场服务期间,每隔6小时做一次常规巡检服务。l 遇到报警或故障,驻场工程师若无法保障短时间解决问题,直接将报警或故障提高为I级紧急故障,并启动故障响应服务。四、考勤制度4.1目为了规范运维考勤管理,严肃工作纪律
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 考勤 标准规范
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。