云上自动化运维宝典.pdf
《云上自动化运维宝典.pdf》由会员分享,可在线阅读,更多相关《云上自动化运维宝典.pdf(248页珍藏版)》请在咨信网上搜索。
1、阿里云开发者“藏经阁”海量电子手册免费下载扫码回看全部课程推荐语随着企业在云上进行 DevOps 实践进入深水区,企业对充分利用云本身的优势提升业务交付的效率和质量提出了更高的要求。对此,阿里云提供的 ECS 自动化运维套件 CloudOps,帮助企业借助云上原生的自服务能力,快速解决业务面临的成本、性能、稳定性和安全性挑战,加速企业的价值交付与业务创新。云上自动化运维 CloudOps 的系列文章,将以阿里云 CloudOps 的产品矩阵为基础,从典型应用场景出发,为大家提供具有实操指导建议的自动化运维最佳实践。目录页万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定
2、运行5ECS 省钱指南来啦!万字长文教你如何选择与业务形态最匹配的付费方式.37高弹性、高可用、低成本的云上资源管理最佳实践.74ECS 多场景迁移上云最佳实践.92多云基础设施的统一纳管与运维实践分享.112如何使用 OOS 有效进行云上自动化运维.133一文读懂云上大规模资源管理的最佳实践.153提升云上资源稳定性的两大利器:事件驱动体系构建&自诊断工具.176最佳实践分享:如何体系化提升 ECS 安全性.202一文详解云上跨可用区容灾解决方案和异地多活能力建设最佳案例.227万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行5万字长文带你了解 CloudOps
3、 自动化运维的奥秘,助力云上业务高效稳定运行为了更好地帮助用户提升云上 DevOps 实践效率,缩短开发周期提升业务效率的同时,也能让业务保持稳定、安全、可靠,且低成本地持续运营,阿里云弹性计算团队独家出品的【弹性计算技术公开课_CloudOps 云上运维季】正式启动。阿里云弹性计算团队十三位产品专家和技术专家共同分享云上运维深度实践,详细阐述如何利用 CloudOps 工具实现运维提效、弹性降本。该系列共 10 节直播课程,在阿里云官网、阿里云微信视频号、CSDN官网、阿里云钉钉视频号、阿里云开发者微信视频号同步播出,本次课程由战略合作媒体CSDN 独家支持。【弹性计算技术公开课】-Clou
4、dOps 云上运维季系列课程,首节课程由阿里云弹性计算高级产品专家马小婷主讲,课程主题为CloudOps 云上自动化运维,助力云上业务高效、稳定运行,课程涵盖:云上业务持续运行面临的挑战、ECS 自动化运维(CloudOps)的产品大图解析、ECS 使用成熟度评估与洞察(ECS insight)等相关内容,点击下方链接进入【CloudOps 云上运维】课程专题页即可观看课程回放,还可了解最新课程预告。【CloudOps 云上运维:https:/ CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行61.云上业务持续运行面临的挑战大多数企业上云第一步就是购买算力,即云服务器。不同行业和规
5、模的客户,由于他们的能力和行业属性有所区别,故对云服务器的诉求也不一样。根据阿里云 ECS 客户的调研和反馈,我们发现 ECS 客户在使用 ECS 的过程中,面临的主要问题大致可以分为以下五个方面:成本问题:当前大环境下,不少企业对成本优化的诉求非常强烈。由于云上是按需付费的服务模式,即我们使用了多少资源,就要为所买的资源付费,这与传统的提前一次性采购所有服务器的模式不一样,不受约束的按需购买就非常容易出现资源浪费的问题。如果我们不能对云上的资源进行很好的成本管理,很容易出现云上的资源成本超出线下支出的情况。所以,如何在不影响业务持续正常发展的基础上进行成本管理和优化是不少企业面临的首要挑战。
6、效率问题:提效降本总是相伴相随的,资源的成本是显而易见的,但人效的问题很多时候却无法直接衡量或看得见。众所周知,自动化是提升运维效率的最佳方式,但自动化工具的建设和维护成本也是隐含成本。与线下 IDC 相比,云服务提供商也提供了丰富万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行7的工具和能力来帮助企业提升云服务器的运维效率,而如何利用工具或者服务能力降低云上资源的维护和管理成本,是不少企业面临的痛点。稳定性问题:虽然云上客户无需管理和维护底层物理基础设施,但并不意味底层基础设施是 100%可靠的。虽然目前阿里云提供了业界领先的单实例 SLA,即 99.975%,
7、但也不意味着底层基础设施 100%不会出问题。站在业务应用的视角上来看,我们要做的是构建并提升整个应用的稳定性和可靠性,而不是单纯的依赖单个 ECS 实例的稳定性来保障整个系统的稳定性诉求。同时,当底层服务的稳定性出现任何问题时,我们业务侧如何快速恢复,缩短业务受损的时间,这也是 ECS 客户在云上面临的重要挑战。可用性问题:对于类似电商、社交平台等行业的客户而言,上云带来的最大便利性是资源便捷的可获取性以及云上的深度弹性。在线业务一般都会面临明显的峰谷波动,而服务的可用性是业务的重中之重,尤其是在业务高峰期的时候,我们需要快速的创建大量资源来满足临突发的流量需求,确保服务的可用性。但如何更好
8、的利用云上弹性来实现业务的高可用,是不少客户在真正落地过程中面临的问题。安全合规问题:安全问题是不少企业在上云时最为关心和担心的问题,这也是很多人对云直接的条件反射,即很多人认为上云意味着所有数据都托管在公有云服务提供商上,那是不是所有人都可以访问我的资源?是不是业务很容易被攻击?那我的数据安全是否有保障?尤其是银行类或证券类类的客户,他们对数据的安全和合规尤为关注。其实云上也提供了非常丰富的安全能力,包括数据安全、计算安全、应用安全、操作系统安全,来保障业务在云上运行的安全可靠,但如何利用这些安全能力设计一个符合安全规范和合规的应用体系,是不少企业面临的痛点。以上五个问题是目前 ECS 客户
9、面临的主要问题,接下来我们一起看一下它和行业内客户面的问题是否具有一定的相似性。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行8前面我们介绍了 ECS 客户所面临的云上运维的五大挑战,回归到整个行业维度,根据上图展示的 Flexera 2023 年 State of the cloud report 分析报告可以看到,对于大型企业,面临的 Top 3 的挑战是:管理云上成本、资源/技能不足、多云管理和安全问题。对于中小企业,面临的 top 3 的挑战是:管理云上成本、安全问题和合规问题。但对于所有企业而言,大家面临的最主要的问题还是:管理云上成本、安全问题和资源
10、/技能不足等问题。对于管理云上成本和安全这两个痛点,相信很多人都是有目共睹的。关于资源/技能不足的问题,我想详细展开介绍一下。与线下 IDC 相比,云上除了提供标准的各种算力外,它还提供非常多的标准化的自助服务能力,用户可以通过控制台或者 OpenAPI 自助使用。这意味着云上的运维方式和传统的运维方式是不一样的。我们不再需要像过去一样,从零开始什么都自己来构建,而是需要基于云厂商已经提供的能力,提升运维效率和体验。所以,在技能和资源方面,我今天的分享就是要告诉大家,我们有什么样的能力能够帮助大家解决什么样的问题,提升大家对云厂商能力的认知,让大家站在云厂商的肩膀上专注于业务本身价值的高效交付
11、。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行9综合 Flexera 的行业分析报告与 ECS 客户面临的主要问题,我们可以看到,所有企业在云上进行业务运营时面临的挑战无非是以下五个:成本管理:这里我用的是成本管理,而不是降成本,因为抛开管理讲优化和降本是非常简单粗暴的。成本管理的终极目标是以合理的成本来保障业务的正常运行,做到既不浪费也不短缺。自动化提效:自动化是运维从诞生之初就一直追求的目标,所有运维人员都知道自动化可以提效,但是正如 flexera 分析,由于资源或能力的缺失,不少企业的自动化的能力和水平并不是很高,所以借助云上原生能力快速提升自动化能力
12、和水平,也可以缓解业务所面临的挑战。弹性高可用:对于电商、社交媒体等在线服务而言,会存在业务的明显峰谷波动,业务的高可用离不开资源的弹性。在业务高峰期,我们需要根据实际的业务需求快速扩容资源,满足突发流量需求,这在互联网行业是非常明显的痛点。在传统模式下,所有资源的准备和购买都需要提前规划和采购,如果是超出规划以外的计算资源,就很难满足了。而云上最大的特征之一就是提供了非常快的弹性速度,以及“深不可见”的弹性容量。但如何充分万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行10利用云上弹性能力来提升业务的高可用是很多线上业务面临的挑战。稳定可靠:对于游戏类客户而言,
13、业务的稳定性是重中之重,尤其是在游戏开服的前期,如果出现机器宕机,导致部分玩家突然被强制下线影响了游戏体验,会直接影响游戏的体验和口碑,严重情况下还可能会导致几千万上亿的宣发投资“打水漂”。所以如何利用云上的可观测能力、监控报警的能力以及故障演练的能力来提升整个业务的稳定性以及整个应用的可靠性,也是现在很多线上客户所面临的挑战。安全合规:安全性和合规其实是两个方向。正如前面所说的,安全问题是很多客户在上云初期就持有的顾虑,前面的 Flexera 分析报告也印证了这一点,说明云上安全的重要性始终处于 C 位。但如何体系化地提升安全能力,尤其是基于云上默认已经提供的安全能力来构建安全体系是很多客户
14、所关注的。至于合规,主要以银行、证券等金融行业为主,包括物理隔离、数据安全等,它需要端到端体系化的合规解决方案。以上就是我们发现的云上业务持续运营面临的五大挑战。2.ECS 自动化运维(CloudOps)的产品大图万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行11首先,看一下 CloudOps 的基础概念。很多人在听到 CloudOps 的时候可能会好奇它究竟是什么,我们听说过 DevOps、FinOps、AIOps,那 CloudOps 是什么呢?顾名思义,CloudOps 其实就是云上自动化运维,和 FinOps 一样是一种运维理念。CloudOps=Clo
15、ud x DevOps,强调的是充分利用云本身的特性更好地实践 DevOps,加速业务价值的快速稳定交付,它的核心点是强调了云本身的特性,而不需要我们重复性的开发。云本身的特性包括云的高弹性、高度标准化、高自动化和自助服务模式等,这就意味着用户能够根据自己的需要按需取用,不需要依赖任何其他能力的支持。CloudOps 定义了企业在上云、用云以及管云过程中重点关注的五个维度,它和我们前面说到的云上客户常见的五个痛点是相呼应的,分别是成本 Cost、自动化 Automation、可靠性 Reliability、弹性 Elasticity、安全性 Security,缩写为 CARES。另外,Clou
16、dOps 是阿里云提供的一套自动化运维套件的总称。为了持续提升客户业务在云上的可靠性和稳定性,阿里云提供了非常丰富的自动化工具,帮助客户实现云上 DevOps全流程的可感知、可控制以及可衡量的能力,持续帮助客户解决成本、效率、稳定性、可用性、安全性的问题。比如,成本优化工具解决的就是成本的问题,自动化能力解决了自动化运维提效的问题,可靠性能力可以用于提升业务的稳定性、缩短业务受损时长,弹性能力解决了应用的可用性问题,安全合规能力提升了业务的安全性。所以,CloudOps 既是一种运维理念,也代表了阿里云在围绕运维体验为大家提供了一套标准化的工具的总称。上图右侧是去年发布的 CloudOps 云
17、上运维白皮书 2.0 的内容,欢迎大家扫描文末二维码进行下载和阅读。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行12接下来我将介绍一下 ECS CloudOps 套件。CloudOps 这个名字听上去非常抽象,它究竟代表了什么样的工具,能够解决什么样的问题,以及它过去十年是怎样发展的呢?上面这张图可以给大家一个详细的说明。2010 年,阿里云发布了第一款云服务器,这也是阿里云提供的第一款云产品。2014 年阿里云推出了第一款 CloudOps 产品,弹性伸缩服务,它能够根据业务的峰谷波动自动进行ECS 资源的水平扩缩容,在需要时扩容,在不需要时缩容,既解决了应
18、用可用性的问题,也解决了使用成本的问题。2015 年,阿里云推出了资源编排 ROS,它是第一款 IaC(Infrastructure as Code,简称IaC)的产品,它提升了整个 IasS 层资源的部署效率。比如,一个正常的业务架构,它可能包含多种云产品,包括 LB、VPC、ECS、RDS 等等。在传统购买模式下,我们需要单独购买每个产品,再去做一些配置。通过 ROS 我们可以一次性交付这些资源,如果这些资源需要跨地域部署,我们也可以把这个应用架构在另外一个地域快速拉起来。2016 年,阿里云推出了标签 Tag,它的功能是对所有的云资源打标签分组,只有打完多维度的标签之后,我们才能根据多维
19、度对资源进行更精细化的管理。标签 Tag 解决了管理的万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行13效率问题,也解决了安全的问题,还可以帮我们做多维度的成本分析来优化成本。2017 年,阿里云推出了弹性供应 APG,它能够大规模交付 ECS 的算力,尤其是 spot 的算力,它解决了交付效率和交付成本的问题。2018 年,阿里云推出了云助手,它是 ECS 自动化运维的通道。云助手是 ECS 内部安装的一个插件,通过这个插件用户可以在不需要登录 ECS 的情况下,就能执行远程命令完成对资源的配置。它对标开源的 ansible 工具,是做大规模批量运维的基础,解
20、决了效率和安全的问题。2019 年 6 月,阿里云推出了服务器迁移中心 SMC,它能够帮助用户在不停机的情况下,一键把应用和数据迁移上云,同时也能实现业务跨可用区迁移。2019 年 7 月,阿里云推出了运维编排 OOS,它是云上统一的自动化运维平台,能够提供定时任务、批量任务以及工作流等编排工作,解决了效率和安全性的问题。2020 年,阿里云推出了镜像构建服务,它能够帮我们做镜像的定制和自动化的构建,能够实现镜像的持续集成,还解决了 DevOps 里的持续集成的问题,提升了持续集成的效率。在提供了这么多自动化能力的基础上,2021 年阿里云推出了自动化运维套件 CloudOps的概念,它是一站
21、式 DevOps 的实践工具集,包含了我们前面提到的所有的自动化工具。2022 年阿里云发布了一个新的产品叫应用管理,以应用的维度打通 DevOps 的全流程。以上就是阿里云 CloudOps 套件过去十年的发展历程。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行14前面主要介绍了 CloudOps 套件的核心产品,但它包含的产品远不止这些,还包含很多小的工具。上图展示了目前阿里云 ECS CloudOps 全部的产品。最底层是服务于 IaaS 层的所有资源,可以分成两大块:平台侧基础能力包括计算形态、基础镜像、基础安全防护,客户侧的原子能力包括 Guest O
22、S 管理、资源分组管理等等。对于 IaaS 层基础资源的管理,我们提供的所有 CloudOps 能力可以分成五个维度。成本优化方面,CloudOps 提供了支持多种付费方式,也提供了一些成本优化的基础能力。自动化服务方面,CloudOps 提供了运维托管、批量自动化、运维通道的能力,包括刚刚提到的云助手。除此之外,我们还提供类似于 VNC workbench 的访问通道。可靠性服务方面,CloudOps 提供的能力也分成四个维度:最底层是资源的可观测能力,包括实例的健康状态、云监控,它能够对资源最底层的 Metrics 进行持续的观测。在此基础上,CloudOps 还提供了事件服务,当底层出现
23、问题的时候,我们可以通过事件的方式来通知到用户。此外,CloudOps 还提供了自助问题排查的能力,能够从实例内外部的所有配置上给用户做问题的定位和排查,快速缩短业务受影响的时长。最后,CloudOps 还万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行15提供了应用的管理来提升整个应用的可靠性。CloudOps 在弹性服务方面的能力也可以分成两个维度。最底层是根据业务需求进行弹性的扩缩容,包括弹性伸缩,能去做水平的扩缩容,此外还支持垂直的升降配,能够做预测性的扩缩容。同时,CloudOps 还提供了弹性保障的能力,当业务有计划性的大规模的资源诉求的时候。比如双十
24、一这种情况下,很多电商或者平台都会去做活动,所有服务都会有额外的算力需求。为了保证当时的业务需求能够得到资源的保障,用户可以借助CloudOps 的资源预留或者购买一些预留实例进行资源锁定的,来保证业务在最高峰期,它的资源能够得到响应和保证。安全合规服务方面主要围绕实例安全和操作安全。实例安全包括基础设施安全、数据安全、网络安全、GuestOs 安全;操作安全包括访问控制、操作审计。在这两方面,CloudOps都提供了对应的产品能力。以上五大维度最终服务于整个 ECS 的全生命周期运维。在此基础上,阿里云推出了一个新产品,ECS 使用成熟度评估与洞察(ECS Insight)。它在这五大维度的
25、基础上,识别客户在使用 ECS 的过程中面临的风险,提供优化推荐的建议,帮助业务持续提升在这五个维度上的能力。万字长文带你了解 CloudOps 自动化运维的奥秘,助力云上业务高效稳定运行16下面我将围绕 CARES 这五个维度,分别举一个例子,让大家对每个工具的使用方式和适用场景有更直观的体感。第一个是成本管理。线下我们在做资源的分权和分账的时候,更多的是依赖于个人所属的组织关系。在云上,我们可以通过标签服务,对云资源的使用方和所属的部门进行详细的标识,帮助用户对具有相同特征的云资源进行分类、搜索和聚合,提升资源的管理效率。那么标签是什么呢?标签本质上就是一个键值(Key:Value),我们
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自动化 宝典
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。