自2017年谷歌提出Transformer架构后,人工智能发展逐步迈入预训练大模型时代。2018年6月,OpenAI的GPT模型参数量已经达 到1.17亿,模型参数量开始实现亿级基底的飞越发展,平均每3-4个月即呈现翻倍态势,由此带来训练算力需求也“水涨船高”。算 力正在成为影响国家综合实力和经济发展的关键性要素。浪潮信息发布的相关报告表明,计算力指数平均每提高1个点,数字经济和 GDP将分别增长千分之3.3和千分之1.8。面对算力层的供需结构矛盾,各国积极发展算力层基础设施建设。在计算力指数国家排名 中,美国坐拥全球最多超大规模数据中心,以75分位列国家计算力指数排名第一,中国获得66分位列第二,随后为日本、德国、英 国等国,算力建设已然成为国家高质量发展的战略级方针。2022年末,在OpenAI的GPT模型涌现能力后,AI产业迅速进入以大模 型为技术支撑的AIGC时代,巨量训推算力需求让本就供需不平的算力产业结构进一步承压。目前中国各地正加快新一批数据中心与 智算建设,持续优化算力资源,满足未来高速发展的大算力需求。
大模型需要历经训练、调优、二开与推理四个核心步骤。从算力应用角度出发,可拆解为训练算力与推理算力。
**训练算力需求=模型参数量*数据集token数*系数k。**由此可知,模型训练的算力需求与其参数量、数据集token数成正比关系。 承载千亿、万亿级参数的AIGC预训练大模型需要巨额算力支撑,对相关厂商高筑算力门槛。以OpenAI训练GPT模型为参考,1750 亿参数模型训练约需要3.14*10^23次浮点运算,对应10天训练时间消耗约一万张GPU。国内厂商算力资源紧张,且此前购买的大部 分GPU被常规业务占用。为了训练自身国产大模型,部分厂商采取算力资源调配策略,以大模型训练为优先级实现资源汇聚。
**推理算力需求 = 模型参数量 *(“输入+输出”token数)* 系数k。**对于云端大模型来说,推理算力需要支撑成百上千万用户频 繁应用。2023年4月6日,ChatGPT就曾因需求量太大而暂停升级服务,并停止Plus付费项目的销售。国内大模型厂商也因推理端算 力资源容量而限制AIGC大模型的公开测试名额。AIGC初期,市场把更多目光放到模型预训练大算力层,关注GPU等高算力芯片的 资源供给及消耗。未来,顺应AI模型先训练后推理逻辑,AIGC算力层将逐渐迎来推理算力更广泛开阔的主场,带来更多分散性机会。
过去数据中心以租赁与自建为主,算力需求方基于自身业务量级、财务预算情况、数据隐私要求等情况进行选择租赁或自建。在 AIGC时代背景下,数据中心将配置更多AI服务器满足日益剧增的智能算力需求,云厂商更是提出MaaS(Model as a Service)模 型即服务的商业模式,将云计算、智能算力、模型能力等资源做高度融合,客户可以直接在云端调用、开发与部署模型,更好适配 于客户的个性化需求。未来,更多长尾企业的需求体量将拥抱MaaS商业模式。相较于云端算力发展,端侧大模型虽然发展较缓,仍 是各家终端厂商发展的技术焦点,如从苹果招聘信息中可观测到其对“在端侧实现推理和加速大语言模型功能“的人才需求及产品 规划。未来,随着大模型轻量级开源版本的发布,大模型有望进行进一步剪裁优化,将推理能力部署在端侧,并带动手机、机器人 等端侧芯片发展。
预训练大模型的训练推理需要巨量数据资源与高性能计算机的全天候高速运转,对数据中心的网络带宽、能源消耗与散热运维等能 力提出更高要求。首先,网络是数据中心最为重要的组成部分,随着数据量与计算量的飞涨,数据中心需优化网络带宽,实现数据 在节点内与节点间的高吞吐低延迟的传输与连接,并进一步优化计算集群的架构与设计,保证数据中心的高效利用率;其次,能源 消耗与碳排放问题是数据中心亟需关注的重点问题。普通服务器的标准功耗一般在7501200W,而AI模型运行时会产生更多的能 耗,以CPU+AI芯片(搭载4卡/8卡)异构服务器为例,系统功耗一般会达到1600W6500W。根据斯坦福大学发布的《2023年AI 指数报告》数据显示,GPT-3模型训练耗费的电力可供一个美国家庭使用数百年,CO2排放量也相当于一个家庭排放近百年。由此, OpenAI创始人Sam Altma下注核聚变公司Helion Energy,向其投资了3.75亿美元,Helion Energy也已与微软签署购电协议,承 诺将2028年之前把世界上第一台商业核聚变发电机接入电网,交付给微软;另一方面,基于大模型算力需求的高能耗运行,其热量 释放呈现倍增态势。为了确保服务器能够长期处于适合的工作温度,数据中心将更注重系统设计和散热技术的发展应用。大模型散 热需求加速由风冷到液冷的技术升级,进一步提升经济性、节能效果和散热效率等。散热也将更贴近发热源,由机柜级散热、服务 器级到芯片级发展。目前,中国大力推进“东数西算” 工程,并发布《新型数据中心发展三年行动计划(2021-2023年)》等政策 性文件,引导新型数据中心实现集约化、高密化、智能化建设,在AIGC时代下完成中国算力产业在规模、网络带宽、算力利用率、 绿色能源使用率等方面的全方位提升。
算力是评价AI芯片的核心要素,而除了运算次数外,芯片的性能衡量还需考虑运算精度。基于运算数据精度不同,算力可分为双精 度算力(FP64)、单精度算力(FP32)、半精度算力(FP16)及整型算力(INT8、INT4)。数字位数越高,代表运算精度越高, 可支持的运算复杂程度越高,以此适配更广泛的AI应用场景。此外,AI芯片的性能峰值算力是指芯片能够输出的最大算力,而由于 硬件架构的限制,算法模型特性,以及工具链,软件框架等各方面因素,AI芯片算力不会被百分之百充分利用。为了适配大模型的 训练及推理,AI芯片要求有更大的内存访问带宽并减少内存访问延迟,由此带动由GDDR到HBM的技术升级,另一方面需要更高的 片间互联甚至片内互联能力以满足AI加速器访存、交换数据的需求。最后,大集群不等于大算力,在大规模集群部署下,集群训练 会引入额外通信成本,节点数越多算力利用率越低,且单点故障影响全局运行。因此,同比增加GPU卡数或计算节点,不能线性提 升算力收益,中国面临的单卡芯片性能差距将更难通过堆料等方式解决。
受益于AIGC爆发,英伟达再度股价飞升,如今英伟达估值已达到1万亿美元,成功进入苹果、微软、谷歌、亚马逊所在的“万亿俱 乐部”,成为美股有史以来首个市值触达1万亿美元的芯片公司。2023年3月,英伟达举办GTC(GPU Technology Conference) 大会,介绍推出基于Hopper架构打造的产品H100、为AI生成视频提供硬件支持的L4图形GPU、融合了Grace架构CPU与Hopper架 构GPU的GH200等重磅产品。此外,英伟达更是将产品布局延伸到上游,推出历时四年的cuLitho光刻库,与台积电、ASML和 Synopsys等上游厂商合作,将计算光刻加速了40倍以上;并积极拓展下游模型应用场景,推出一系列围绕生成式AI发布的系列加速 模型训练和推理软硬件产品及服务。8月,英伟达在计算机图形年会SIGGRAPH上宣布全球首发HBM3e内存——推出下一代GH200 Grace Hopper超级芯片,并宣布与Hugging face建立合作伙伴关系,助攻生成式AI模型的高效开发与部署。总结来看,英伟达早 期以软硬产品结合策略构筑起AI芯片龙头地位,当下顺着生成式AI浪潮,英伟达已进一步开拓上下游布局,意图构建一套围绕产业 上下游运转的应用开发生态,进一步加深公司技术与生态的护城河。
作为AIGC产业的基建层,算力是AIGC生产力卡脖子的关键环节。对此,算力生产商纷纷发力,如AMD、英特尔等追赶型企业针对 AIGC的产品新品动作频频。对标英伟达的Grace Hopper,AMD推出“CPU+GPU”双架构的Instinct MI 300进军AI训练端。英特 尔即将在2025年发布Falcon Shores GPU,将其混合架构改为纯GPU解决方案。全球掀起一阵GPU采购热潮,马斯克抢购一万张卡 加入AIGC大战,而国内厂商除过往存货外,受中美禁令限制仅能采购英伟达H版GPU,在算力及带宽方面受到极大限制。目前,国 内大模型训练芯片仍以英伟达GPU为主,且英伟达作为首批训推部署框架成品及平台生态将进一步巩固其在生成式AI的优势地位, 但国内客户正积极与海内外追赶型企业如AMD接触,意图打破英伟达的溢价与垄断体系。自2018年以来,美国陆续对中国企业实行 贸易管制,进入到美方黑名单上的中国企业已达到了千余家,尤其在半导体、人工智能等先进科技领域,国产芯片实现自主创新迫 在眉睫,中国科技部也陆续出台政策推动人工智能公共算力平台建设。目前国产芯片虽在成片进度有所突破,但整体还尚未进入成 熟期。以适配AIGC大模型训练角度出发,国产产品会出现宕机、兼容性差、AI框架支持度低及核心IP受限等过渡性问题。在AIGC浪 潮下,AI芯片发展路径更加聚焦于AISC品类,中国算力层也会进一步尝试脱离对头部厂商英伟达的依赖,以“云巨头自研自用+独 立/创业公司服务于信创、运营商等To G与To B市场”为两条主线发展路径,静待国产替代曙光,实现国产“算力+应用”的正循环。
2023年9月21日,阿里云正式推出阿里云创业者计划,联合知名投资机构、加速器、创服机构以及大企业创新力量,旨在为初创企业提供全方位的赋能与服务,助力创业公司在阿里云上快速构建自己的业务,开启智能时代创业新范式。