企业自建 IDC 是一个重资产长周期的过程,整个采购、部署周期以周或月为单位计 算,同时企业需要对相应 IT 设备的整个生命周期负责,除了经济成本,还需要付出 较大的时间成本和人力成本。而使用云服务,企业进入了一个全新的消费模式:按 需使用、按量付费、运维标准化和自动化。从云服务商的视角,随着云计算规模的 不断扩大,其自身的边际成本在不断降低,企业在云上也可以进一步享受到云计算 的规模红利。因此从宏观上看,使用云服务会大幅降低企业在 IT 方面的经济成本、 时间成本、人力成本。
需要注意的是,在云上的按需使用的消费模式给企业的组织管理带来新的挑战,自 建 IDC 模式是一次性采购一次性支出,云上变成了实时的按需采购与支出,对运维, 财务、技术、产品团队的协作模式有了新的要求。FinOps 基金会给出的 FinOps 定 义里认为“云上成本管理是由技术与运维、产品与业务、财务与采购等多个团队在 数据驱动的支出决策上进行协作,使企业能够获得最大的业务价值”。
不同的团队侧重点会不一样,下面概述不同团队视角所需要重点关注的内容:
技术与运维
产品与业务
财务与采购
Flexera 2022 年云状态报告数据显示:受访企业认为他们云开支里有 32%是浪费的, 高于去年的 30%。中国信息通信研究院的云 MSP 服务发展调查报告显示:云优化能力成为企业选择云管理服务商时考虑的重要因素,其中,容量和成本优化、云上应用性能优化成为企业云管理的首要需求。
云上有丰富的资源计费方式,例如云上特有的抢占式实例可以低至 1 折;丰富的资 源规格,例如云上特有的突发性能实例成本低廉,非常适合轻量级 web 应用、开发 /测试环境等低性能负载业务场景;云上提供了多种提升资源利用率的方法,例如开 启节省停机模式后在停机期间不收取计算资源费用。因此,从技术、产品团队角度看,选择合适的资源计费方式、资源规格类型、提升资源利用率都是可以有效降低 成本的。从财务角度看,预算管理、成本分析是非常基础的诉求,这些在云上应当 如何使用是需要重点关注的。
综上,本章节将从资源计费方式选型、资源规格选型、提升资源利用率、成本分析 与监控角度来说明云上成本管理的方法。
以云服务器为例,它的资源成本主要由计算、存储、网络三大部分构成。在云上, 针对每部分,一般会提供丰富的计费方式,不同的计费方式背后是成本低廉性(简 称经济性)、使用灵活性、资源确定性三者的平衡。
通常,云上计算资源从产品形态看一般有三种:包年包月、按量付费、抢占式实例, 其中包年包月为国内云厂商特有的形态。三种产品形态对应了不同的产品能力,如 包年包月费用低但一般会对降配、释放(退订)等做一定的限制,因此会丧失一定 的灵活性,同时从团队的视角看,包年包月这种付费方式,财务团队与运维团队是 强耦合的。
例如退订一台包年包月的实例后再重新创建一台相同或相近配置的包年包月实例, 这是运维很朴素的需求,然而整个流程里都要依赖财务团队;按量付费拥有最强的灵活性,可以随意创建释放升降配,但费用较高;抢占式实例在保护期之外随时可 能被系统回收释放,资源的确定性相对较低,对应用本身兼容性要求很高,但价格 相比按量付费可以低至 1 折。
从付款方式看主要有三种:全预付、部分预付、后付费,三种付款方式对应了不同 的折扣体系,诚然,全预付可以享受更高的折扣,其他次之。
按量付费的产品形态一般采用后付费的付款方式,但由于后付费费用较高,云厂商 提供了预留实例(Reserved Instances)、节省计划(Savings Plans)等可抵扣后 付费账单的产品,企业可以通过预付费的方式购买这些产品享受高的折扣从而降低 成本,同时由于这类产品的特点是资源与账单解耦,意味着财务和运维团队可以解 耦,运维可以随意创建释放资源,无需与财务打交道,因此这种按量付费的产品加 上抵扣类产品搭配使用的方式可以兼顾资源的灵活性和成本的低廉性,但是需要预 估好资源的使用量,避免抵扣率低造成成本的浪费。
为了解决按量付费产品形态下资源的确定性问题,云厂商提供了容量预留(Capacity Reservations)产品,企业购买此产品后,立刻开始以后付费的方式计费,无论何时 创建资源只要能匹配到预留的容量里都确保有库存,此时只收取实例费用,不收取 容量预留费用。需要注意容量预留的利用率,避免利用率太低造成成本浪费。
可以看到,企业在云上针对计算资源选择适合自己业务的产品形态、付款方式是非 常重要的,采用不同的方式会直接影响到资源的产品功能与成本,往往需要联合业 务团队、技术团队、财务团队协作才能达到最优效果。
下图总结了上述各种产品在经济性、灵活性、确定性方面的平衡情况:
企业根据实际的业务需求和应用场景,为不同类型应用的资源选择合适计费方式,才能更好地实现云上成本控制。常见的业务类型有如下四种:
下面总结了不同业务类型适用的计费方式:
计算资源从处理器类型角度看,业界典型的厂商或者架构 Intel、AMD、ARM 三种云 厂商都有提供,全面覆盖企业的各种场景。从产品能力看,分为通用型、计算型、 内存型、高主频型、大数据型、本地 SSD 型、GPU 型、FPGA 型、突发性能型等, 计算资源规格选型是企业在成本方面需要重点关注的,只有选择适合自己业务场景 的规格类型,才能获得最优的性价比,如某电商网站根据自身业务特点选择计算型 实例(4vCPU),相比通用型,成本降低 20%以上,再如突发性能实例成本低廉, 其中的小规格非常适合轻量级 web 应用、开发/测试环境等低性能负载业务场景。
另外企业在选型后,在实例运行过程中应及时监控资源的负载情况,以便及时调整 到适合自己的规格。
云厂商根据不同的使用场景推出了不同的实例规格,而且在不断的更新迭代,如阿 里云云服务器 ECS,目前已经迭代至第七代,越新的实例意味着性价比越高,企业 在选型时应尽量选择最新一代的实例。
差异:
性能和成本方面:在相同成本下,本地盘相比云盘,拥有更高的性能,但有 数据丢失的风险,而云盘数据可靠性高,以阿里云云盘为例,可达 9 个 9; 但 NFS 通常拥有更高的数据可靠性,以阿里云 NAS 为例,其可靠性达 11 个 9,但 NAS 性能会更弱一些,相对应的成本也更低。
产品功能方面:本地盘有诸多限制,如不支持快照、不支持变配、宕机迁移 不保留数据等;而云盘没有这些限制;NFS 产品能力上天然支持共享存储, 这也是本地盘、云盘所不具备的。
不同的存储资源拥有不同的功能、性能、成本。对于企业来说,需要根据自己的业 务特点选择适合自己存储资源。
提升资源利用率也是控制成本的一种方式,企业需要充分发挥云上的弹性能力、自 动化运维能力、监控能力,做到在业务需要时创建资源,在业务空闲时停止或释放 闲置资源;在业务增长时升级资源规格,在业务需求下降时降低规格;提升资源利 用率也包括提升资源的使用效率,效率的提升可以降低企业人工操作的成本。下面 列举一些提升资源利用率的方法。
提升利用率
针对抵扣类产品,如预留实例券、节省计划、容量预留等,企业需要定期关 注其利用率与覆盖率,避免利用率过低造成浪费,同时若发现利用率已达到 100%,要及时升级加购。云厂商一般都会提供相应的工具,企业可以在云 厂商控制台进行查看与调整,或者集成云厂商提供的 OpenAPI 自动化调整。
企业可以通过云厂商提供的监控工具来实时监控计算资源 CPU、内存的利 用率,及时根据前面章节提到的弹性能力进行资源的水平、垂直弹性伸缩, 提升利用率降低成本。若存在长期负载较低的情况,建议使用突发性能实例 来降低成本。
针对按量付费实例,若非 7*24 小时提供服务,可以开启节省停机模式,开 启后停机时间不收取计算资源费用,可以借助自动化运维工具来实现周期 性定时开关机(开关节省停机模式)。
针对包年包月实例,若企业不再使用,可以进行退订,但云厂商通常会对退 订做一定额度的限制,企业需要避免大量退订导致超出可退订额度。
针对实例的带宽,若周期性出现带宽较高的场景,可以借助自动化运维工具, 定时升降带宽,实时调整带宽避免浪费。
提升效率
针对抢占式实例,企业参照相关使用的最佳实践,包括消费实例被系统回收 释放的消息,借助诸如弹性供应等产品来实现算力集群的稳定交付,提升资 源使用效率。
针对包年包月实例,若企业长期使用,可以开启自动续费、也可以借助统一 到期日这样的功能来提升续费效率。
释放闲置资源
企业可以通过云厂商提供的监控工具来实时监控计算资源 CPU、内存、磁
盘的使用率,关注是否存在资源闲置。
放,避免付出资源占用费。
值得一提的是云厂商们纷纷推出了 Advisor 产品,企业可以授权 Advisor 产品定期 扫描自己账号下的资源,给出安全、性能、稳定性、成本各方面的建议,企业可以 依据给出的建议做优化。
企业在云上的消费通常是跨多个云产品的,企业内部对云资源的消费通常是跨多部 门的,各部门都会产生云资源的开支,而企业财务部门是需要为每笔开支负责的, 因此从企业财务部门视角看,对云厂商有以下诉求:
清楚地知道企业内部各个部门每月消费了多少金额。
通过设置预算来管理各个部门的开支。
需要工具从各个维度分析自身成本,判断自身成本是否合理,是否有优化空间。
成本异常监控能力。
针对以上诉求,云厂商也提供了解决方案:组织管理、预算管理、异常监控、成本 分析与优化。
企业财务人员可以在云厂商提供的组织管理工具里创建自己的组织,以一种目录树 的形式将使用云资源的部门、团队录入。
当部门使用资源的时候需要为对应的资源打上标签或资源组,之后在组织管理工具 里可以设置自动分配规则,如:创建“团队 A”这样一个组织,设置一个自动分配 规则:当云资源有“Key=团队”,“Value=A”的标签时,将该资源自动分配到“团 队 A”这个组织里,之后就可以以“团队 A”这个组织为维度来查看相关资源所消 耗的费用。
度来设置预算,若某组织超过预算,财务人员可以收到邮件提醒。 • 异常监控
云厂商提供了异常监控能力,可以设置根据一定的条件进行每日巡检,如有消费异 常可以收到邮件提醒。
成本分析与优化 云厂商通常会提供一些成本分析的工具供企业使用,提供的能力有:
支持各个维度的成本分析,如:组织维度、账号维度、产品维度、账单类型 维度、标签维度、地域维度等。
支持将分析时使用的条件保存下来形成一个报告/报表,将消费情况可视化, 便于以后更方便地查看和分析。
根据历史消费记录,预测下一个周期的消费金额,便于企业做预算的时候参考。
成本优化方面云厂商也有工具推出,即根据企业在云上消费的资源,自动分析和推 荐一些优化方案,如资源闲置建议释放、资源利用率低建议降配、按量付费资源使 用较多时会推荐购买合适的预留实例券/节省计划等。
上述成本分析与监控的能力,企业除了可以在云厂商控制台进行查看管理外,也可 以把将云厂商相关财务类的 OpenAPI 对接到自己的财务系统里,更方便自主地做成 本控制。
企业可以通过对自身资源使用量、各类付费方式的使用情况、弹性能力的使用情况、 成本分析与监控的使用情况、是否具备一定的成本预测能力等维度来衡量自身的成 本管理能力,详细分级情况见下表。
如果您希望对所在企业的云成本和资源量化管理能力成熟度进行评估,建议至第十 章“CloudOps 成熟度自评”。
下面总结了在阿里云 ECS 各计费方式的特点与适用场景:
阿里云云服务器 ECS 依赖的块存储资源(也称之为云盘),其产品形态主要有包年 包月、按量付费两种,包年包月成本低但灵活性较差,按量付费灵活性高但成本也 高。
需要指出前面提到的节省计划是支持抵扣按量付费云盘账单的,而前面提到的预留 实例券不支持抵扣按量付费云盘账单,但阿里云提供了与预留实例券类似的可以抵 扣存储资源账单的产品存储单位容量包。下面总结了各个产品的特点以及使用的场 景:
阿里云 ECS 网络资源的成本主要在公网 IP 与带宽上,公网 IP 分为普通公网 IP 与弹 性公网 IP,普通公网 IP 的生命周期与 ECS 一致,不收取公网 IP 地址资源占用费, 而弹性公网 IP 可独立于 ECS 存在,若其 IP 地址未分配到 ECS 实例上,会收取 IP 地 址资源占用费,因此弹性公网 IP 如果闲置将会产生一定的成本浪费,这是值得企业 关注的。
带宽的计费方式分为按使用流量计费和按固定带宽计费,按使用流量计费以“元/GB” 为定价单位,即实际消耗多少 GB 就付多少费用并按小时出账,按固定带宽计费支 持预付费和后付费两种模式,按照配置的带宽峰值进行按小时或按月按年收费,不 关心实际消耗多少流量。因此企业在选择带宽计费方式的时候,需要根据自己的业 务特点进行判断,若业务属于平时带宽使用较低但间歇性的出现网络访问高峰的场 景,适合选择按使用流量计费,而稳定的 7*24 小时服务更适合选择按固定带宽计 费。
在云上,公网 IP 与带宽不止用于诸如阿里云 ECS 这种云服务,也会用在负载均衡, 公网 Nat 网关等提供公网访问的产品上,针对按固定带宽计费的公网带宽,云厂商 提供了共享带宽包产品,可将上述多个产品的公网带宽统一加入到共享带宽包里, 由于支持预付费模式,同时多产品间带宽可以互相复用,所以可以有效降低成本, 同时方便统一管理和监控公网流量,利用共享带宽包提供超大峰值的带宽,也不需 要担心带宽跑满。
针对按使用流量计费的公网带宽,云厂商提供了共享流量包,与共享带宽包类似, 企业可以通过预付费模式享受一定的折扣来降低成本。不过使用这类产品企业需要 预估好自己的公网流量,避免购买过大的带宽包,使用率过低从而造成成本浪费。
阿里云 ECS 所提供的的实例规格为例,下图总结了阿里云 ECS 所提供的实例规格适 用的业务场景:
阿里云云盘、本地盘、NAS 在数据可靠性、成本、性能、产品功能等方面的对比情 况:
Gartner 官网提供了做 IT 成本管理相关的公司,可以参见此链接。
参考文档
Cloud Computing Trends:Flexera 2022 State of the Cloud Report
中国信息通信研究院:云计算白皮书
FinOps Foundation:What is FinOps
《CloudOps云上自动化运维 白皮书2.0》系列文章一:前言:提出CloudOps成熟度模型CARES
《CloudOps云上自动化运维 白皮书2.0》系列文章二:CloudOps的主要衡量纬度和定义
《CloudOps云上自动化运维 白皮书2.0》系列文章三:CloudOps成熟度模型整体及等级说明
《CloudOps云上自动化运维 白皮书2.0》系列文章四:自动化能力Automation
《CloudOps云上自动化运维 白皮书2.0》系列文章五:弹性能力Elasticity
《CloudOps云上自动化运维 白皮书2.0》系列文章六:可靠性能力Reliabilty
《CloudOps云上自动化运维 白皮书2.0》系列文章七:安全和合规能力Security
《CloudOps云上自动化运维 白皮书2.0》系列文章九:CloudOps成熟度模型全景图
《CloudOps云上自动化运维 白皮书2.0》系列文章十:CloudOps成熟度自评
各位产业专家、引领浪潮的创业者们,阿里云正在进行“客户云支出趋势”的调研,完成10题问卷(仅需2~3分钟,每家企业限填一次),即有机会获得小礼品!
问卷请见链接:https: //survey.aliyun.com/apps/zhiliao/wvN2aaIiA
也可扫码:
2023年9月21日,阿里云正式推出阿里云创业者计划,联合知名投资机构、加速器、创服机构以及大企业创新力量,旨在为初创企业提供全方位的赋能与服务,助力创业公司在阿里云上快速构建自己的业务,开启智能时代创业新范式。