CloudOps的主要衡量纬度和定义

阿里云创新中心> 创业资讯> CloudOps的主要衡量纬度和定义

CloudOps的主要衡量纬度和定义

报告说 2024-06-04 17:22:10 314
《CloudOps云上自动化运维 白皮书2.0》报告提到了阿里云提供的自动化能力和产品,以及与业界工具的对照表格,包括成本和资源量化管理能力、可靠性能力、安全和合规能力等方面。其中,弹性能力被分为五个等级,并介绍了每个等级具备的弹性管理能力和资源成本管理能力。报告还强调了云服务的弹性能力和资源监控、链路追踪、高可用服务、日志服务等在网络安全和数据安全方面的重要性。今天是该报告系列文章的第二篇,主题为「CloudOps的主要衡量纬度和定义」。

1. 企业运维实践的现状与趋势

根据 Gartner 2021 Top10 Technology Trends Impacting DevOps、Puppet State of DevOps Report 2021 以及我们所观察到的业界趋势,我们观测到了企业运维实践 有以下几个趋势形态:

1) 越来越多的企业在公有云中使用 DevOps,但是绝大部分企业都认为自己没有 发挥和使用 DevOps 的核心能力

  • 65%的企业已经在公共云中使用 DevOps。

  • 只有 20%的企业认为自己充分用到了 DevOps 的全部能力。

  • 自动化已经成为 DevOps 实践中最高优先级的任务,通过结合云的优势和自动化能力,可以进一步推进 DevOps 的能力演进。

2) 微服务架构的实施带来巨大的便利,也带来了新的挑战

  • 服务拆分导致应用激增,统一简单的可观测性是个巨大的挑战。

  • 更多的应用拆分和并行的任务开发模式可能会导致更多的故障点。

  • 应用之间的依赖关系对于单个应用的可靠性和可用性有了更高的要求。

3) 分布式应用的复杂性非常高

  • 网络延迟,容错,消息序列化,不可靠的网络和底层资源,异步性,版本控制。

  • 可测试性和异步调用让链路复杂。

  • 更高更难的 DevOps 要求。

4) 自助服务(Self-Service)已经是企业的一个迫切的需求

  • 预测到 2025 年,75%的大型企业将建立自助服务基础设施平台,以帮助快速进 行产品创新,而 2020 年这一比例为 15%。

  • AI 和 ML 将推动 DevOps 快速进化。

5) 安全成为研发运维一体化关注的重点之一,希望把安全审查前置,让相关人员尽早参与进来,出现了 DevSecOps 的说法。

以上趋势也反映了企业在 DevOps 落地过程中的难点或者需要进一步加强的环节,

主要包括:

  • 要充分发挥 DevOps 的核心能力,突破点在于全局自动化能力的提升。大多数 企业做到了局部流程的自动化,但由于组织结构等原因,推进统一的自动化工 具开发、管理与维护成本高周期长,导致很难全链路打通。

  • 应用可靠性提升的经济和技术门槛高,不仅涉及到物理基础设施的稳定可靠, 还需要从架构设计上考虑应用的可用性。

  • 可观测性非常重要:对于复杂的分布式系统,快速定位异常点并快速恢复依赖 多层级的可观测能力,包括基础设施、应用层、业务层等。

  • 自助服务模式的普及迫在眉睫:在 DevOps 模式下,每个开发人员需要自助完 成开发、测试、集成、发布、部署等一系列任务,自助化工具可以大大提升开发 人员的效率。

  • 智能化运维能力的诉求:AI 和 ML 是智能化运维的基础,可以极大提升运维效 率,但智能化平台的搭建与校准门槛较高。

2. Cloud的特点与趋势

要充分利用云的优势,首先需要了解云的特点、能力和未来趋势,才能云上快速实 现业务的交付。根据 DevOps and Cloud infoQ trend report-June 2022 报告,以及 我们服务上万家企业客户的经验,我们总结云服务提供商必须具备的基础能力包括:

  • 按需取用与成本洞察需要两手抓:云最早被提出来时,就希望做到像水电煤一 样按需取用按量收费,所以云资源提供灵活丰富的付费方式是云的基础能力之 一。但随着企业用云越来越深入,以及云计算技术红利的释放,成本洞察与优 化成为企业深入用云的要求。

  • 大规模的弹性:传统 IDC 模式下,从资源规划到真正可使用基本是以年为单位 进行规划。但云计算本质上是一个规模经济,云的规模体量不仅可以大大缩短 企业所需资源交付的周期,而且还可以灵活应对超出规划外的临时资源需求, 随开随用弹性扩展。

  • 一致的使用方式:云产品或云服务均提供标准化的 OpenAPI 接口,并支持常见 的主流编程语言(包括 Java、Go 等)的 SDK,可快速接入或被集成至各种平台。

  • 低成本的可靠性:云服务提供商通常会在多个地域,或一个地域的多个可用区 提供云服务,企业可以根据业务需要在多个可用区同时部署业务,避免业务因 单个可用区出现异常时变得不可用,自动实现业务的高可用。

  • 全方位的安全能力:除了数据合规、数据加密等基础的云上安全能力外,基于 云的灾难恢复能力成为云上安全的新趋势,当业务的主要基础设施出故障后, 云上灾难恢复能力能备份数据,并通过 IT 设施的快速构建让业务快速恢复。

  • 自助服务模式:自助服务是云最重要的能力之一,丰富完善的自助服务能力能 大大加快企业在云上构建业务流程的效率。

  • 数据化和智能化的趋势:云平台可以完整记录用户的资源使用数据,包括资源 规模,使用习惯,资源配置等。通过机器学习算法对这些数据进行分析建模后, 可为用户提供定制化和个性化的业务洞察与分析,而无需企业从 0 到 1 进行建设。

3. CloudOps的定义与主要衡量指标

正如前言所述,CloudOps 是传统 IT 运维和 DevOps 的延展,通过云原生架构实现 运维的再进化,充分帮助企业降低 IT 运维成本、提升交付速度和系统灵活敏捷度、 增强系统可靠性,构建更加安全可信开放的业务平台。

根据 CloudOps 的定义是 DevOps x Cloud,即 DevOps 和 Cloud 的深度结合,其主要衡量指标也和 DevOps 和 Cloud 息息相关。

  • DevOps 的核心特质是:提升研发速度、提升质量、自动化、敏捷、持续交付、 高度透明、节约成本等。

  • Cloud 的核心特质是:节约成本、安全、弹性灵活、增强协作、可观测、质量 控制、故障恢复、可持续性等。

DevOps 发轫于运维领域,运维领域最关注的,无外乎稳定、安全、降本(成本管 理、增效(自动化)等,而在随着互联网“小步快跑、持续迭代”原则的兴起,对 企业创新的速度和软件的交付效率有了更高要求,因此,敏捷成为了新时代的共同 诉求。

综合 DevOps 与 Cloud 的特性来看,运维人员最关注的维度无外乎以上五个,它们 分别是:成本、自动化、可靠性、弹性(敏捷)、安全,因此本白皮书将从以上五 个维度分别进行阐述和说明。

DevOps 已经在组织文化、产品、流程和工具有比较详细的定义,即通过敏捷组织 和高效的持续集成持续发布,实现业务高质量的快速交付。

因此,本文将不会讨论 DevOps 关于研发支持体系、需求管理、任务管理、代码管 理等内容,而是更多地从如何更好的利用公有云的能力与特点,基于我们服务海量 客户的最佳实践与经验,为大家分享我们对这五个维度的理解与实践。

1) 成本和资源量化管理

云提供了大规模的资源创建和变配策略,也提供了多种多样的付费和计费手段以及 方便灵活的变配方法,如何选择合适的资源规格和付费方式是非常重要的。由于其 方便灵活的特性,往往会有类似停机不收计算类资源费用,以及折扣非常低的抢占 式实例,特别是按需创建资源和关停不需要的计费资源,需要我们有良好的成本和资源量化管理习惯和能力。

2) 自动化能力

云计算核心就是自动化的运维能力,通过软件定义计算、存储、网络,来实现高级 的可编程能力,从而避免人工配置的错误,充分实现可定制的自动化能力。而公有 云的服务模式要求云厂商提供的云产品和云服务都必须是统一标准的,即所有云产 品和云服务都可以通过 OpenAPI 进行调用,从而实现完全自动化的能力。

3) 高可用能力

云计算天生就是为提升可靠性和可用性而设计的,通过大规模数据中心、多数据中 心技术,实现数据中心同城灾备,通过对硬件层的虚拟化,来降低和规避物理硬件 故障对客户的影响,通过成熟高可用的服务来降低系统的复杂性。为了进一步提升 应用的可观测性和问题的排查能力,云平台还会提供比较多的自助服务来做问题的排查和解决。

4) 弹性能力

云计算另外一个巨大技术红利就是弹性能力,针对计算、网络、存储、安全等基础 资源,充分的发挥资源池化和分时复用的价值,通过弹性能力帮助客户应对业务的 高峰,充分降低社会成本和企业运营的 IT 成本,提升资源的利用率,可以极速实现 资源到应用的水平或者垂直升级,通过秒级到分钟级扩缩容能力,完成计算力的创建和释放。

  • 自建 IDC 或者私有云面临 2 大突出问题

    • 前提投入高、资源使用不足存在大量浪费。

    • 后期业务发展快,资源难扩展。

而公有云自建立之初就定位为:让资源像水电煤等基础设施一样,按需取用,按量 付费,快速交付,灵活便捷。这种按需取用,不需要时直接释放的能力其实就是公 有云弹性能力的最直观体现,而弹性能力也是云计算最重要的能力之一。

公有云采用的是按需付费的服务方式,如果用户持续保有不需要的资源,或者出现 资源错配,则会带来不必要的成本支出。因此,对云上用户而言,充分利用云上的弹性能力除了能快速满足业务增长的需求或提升业务的连续性外,还意味着有效降低云上不必要的成本。

5) 安全和合规能力

云上的安全涉及到多方面,包括底层技术设施和应用层,这里我们主要讨论的跟底层资源相关。

首先第一个便是网络安全。区别于传统的 IDC,云计算为了对租户进行隔离,一般 会构建私有网络或者专有网络,通常我们称为 VPC(Virtual Private Network)。VPC 相较传统网络有更好的灵活性、易用性和安全性,并且暴露了更多的能力来提升网 络扩展性。它允许用户按需规划、定义自己的网段划分和路由规则,将传统的路由 器交换机抽象成软件,并暴露给最终用户使用。VPC 良好的扩展性,让用户能够构 建简单可信的网络配置,实现企业级复杂的网络环境。对于 VPC 的规则设置和配置, 都将大大影响网络安全性。

另外,DevOps 中操作审计和追踪是非常重要的能力,在 CloudOps 中亦然,云计 算平台一般也会相应的为您提供面向资源和操作的配置历史追踪、配置合规审计等 能力,帮助客户轻松实现基础设施的自主监管,确保持续性合规。


《CloudOps云上自动化运维 白皮书2.0》系列文章一:前言:提出CloudOps成熟度模型CARES

《CloudOps云上自动化运维 白皮书2.0》系列文章三:CloudOps成熟度模型整体及等级说明

《CloudOps云上自动化运维 白皮书2.0》系列文章四:自动化能力Automation

《CloudOps云上自动化运维 白皮书2.0》系列文章五:弹性能力Elasticity

《CloudOps云上自动化运维 白皮书2.0》系列文章六:可靠性能力Reliabilty

《CloudOps云上自动化运维 白皮书2.0》系列文章七:安全和合规能力Security

《CloudOps云上自动化运维 白皮书2.0》系列文章八:成本和资源量化管理能力Cost

《CloudOps云上自动化运维 白皮书2.0》系列文章九:CloudOps成熟度模型全景图

《CloudOps云上自动化运维 白皮书2.0》系列文章十:CloudOps成熟度自评


各位产业专家、引领浪潮的创业者们,阿里云正在进行“客户云支出趋势”的调研,完成10题问卷(仅需2~3分钟,每家企业限填一次),即有机会获得小礼品!

问卷请见链接:https: //survey.aliyun.com/apps/zhiliao/wvN2aaIiA

也可扫码:

image

文章标签: 原创 报告拆解

image

#阿里云 #创业者计划 #中小企业服务 #创新创业

2023年9月21日,阿里云正式推出阿里云创业者计划,联合知名投资机构、加速器、创服机构以及大企业创新力量,旨在为初创企业提供全方位的赋能与服务,助力创业公司在阿里云上快速构建自己的业务,开启智能时代创业新范式。

>>>点击申请加入 阿里云创业者计划

版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余文章均来自所标注的来源,版权归原作者或来源方所有,且已获得相关授权,创新中心「创业资讯」平台不拥有其著作权,亦不承担相应法律责任。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。