Image 2 Image 3 Image 3 Image 3

计算机行业专题报告:算力网络迎来黄金时代

频道:行业资讯 日期: 浏览:988

(报告出品方/作者:东方证券)

一、算力需求高速增长、算力供给陷入困局,算力网络应运而生

1.1、算力需求指数型增长,需求多样性凸显

全球、中国算力需求或将快速提升,需求多元化驱动算力多样化。随着我们走进数字时代,计算 场景愈加丰富,人工智能、物联网等技术飞速发展、数据高速增长,在中国乃至全球范围内算力 需求也随之提高到了前所未有的高度。据中国信息通信研究院,2021 年全球计算设备算力总规 模达到 615EFlops, 增速为 44%;预计到 2030 年,全球算力总规模将实现 56ZFlops,平均年 增速将达到 65%。作为总规模位居全球第二的国家,我国算力需求同样处高速增长态势,工信部 数据显示,2020 年我国算力总规模达到 135EFlops,占全球总规模的 31%,截至 2022 年 6 月 底,我国算力总规模超过 150EFlops,年均增速超过 35%。除了需求量的提升,随着多样化智 能场景的出现,需求的多元化也对算力的多样化提出要求。

1.1.1、AI性能突破、数据价值挖掘需求提升,驱动算力需求高速增长

数据、算法、算力三者已经成为推动数字经济发展的关键驱动力,三者相互促进。其中,算力是 支撑数字化时代发展的基础与核心。随着我们走入数字经济时代,数据、算法、算力已经成为推 动数字经济发展的关键驱动力。数据、算法、算力缺一不可,相互驱动。 近日,ChatGPT 的诞 生重新让大家看到了 AI 算法的力量,而国家大力发展数据要素,也凸显了数据作为新时代石油的 价值。算法的技术突破、数据的增长以及对数据价值挖掘的需求,极大驱动了社会对算力的需求。 未来已来,算力正是支撑数字化时代发展的基础与核心。

通用大模型的性能依赖于大量参数和数据的训练,需要大算力支撑。以 ChatGPT 为代表的 AI 算 法的突破将极大驱动算力需求。ChatGPT 近日引爆市场,人工智能取得重大突破。GPT 模型的 发展印证了通用大模型性能的提升依赖于大量参数和数据的训练,需要大量算力支撑。 GPT 系列 模型经历了多次迭代:GPT-1、GPT-2 和 GPT-3,ChatGPT 是由 GPT-3 微调得到的一个聚焦于 对话交互的过渡版本。目前,ChatGPT 的训练参数 1750 亿、训练数据 45TB ,每天生成 45 亿字 的内容,支撑其算力至少需要上万颗英伟达的 GPU A100,单次模型训练成本超过 1200 万美元。 另外,人工智能的算法呈指数增长的发展趋势,未来对算力的需求将随着 AI 算法的发展持续增长。

计算机行业专题报告:算力网络迎来黄金时代

数据量的高速增长、以及对数据价值需求的增长将驱动对算力的进一步需求。数字时代到来,数 据是生产要素,而算力则是生产力,数据价值的挖掘依赖于算力的支撑。近年来,5G 网络、区块 链、物联网、VR/AR 等新兴技术的发展促进了数据的指数型增长。据 Statista 统计, 2020 年,全 球产生、采集或复制的数据量达到 64.2 zettabytes(1 zettabyte = 1021 bytes)。同时,Statista 预测未来数据将持续高速增长,预计到 2025 年,全球数据产量将达到 181 zettabytes。其中,中 国在数据量以及相关技术上均保持领先。据 IDC 预测, 到 2025 年, 中国将产生全球最多的数据 量,近全球数据产量的三分之一。同时,我国越来越重视数据要素发展,从理论到实践做了一系 列探索,发布多项重要文件支持数据要素发展。我国数据量的指数增长及对数据价值挖掘需求的 增长将持续驱动对算力的需求。

1.1.2、计算场景愈加丰富,需求多元化对算力多样化提出新要求

计算场景愈发丰富,不同应用对算力精度、延迟、带宽等提出不同需求。技术的发展催生了丰富 的计算场景,不同的行业、应用场景对算力提出的需求不同。例如,天体物理、气象研究、航空 航天等高精尖科研领域需要能够支持复杂运算、性能高的双精度算力,即超算算力。而无人驾驶、 智慧交通等 AI 主要用于处理语音、图片或视频等,单精度、半精度、甚至整型的计算即可满足应 用需要。 而一些产业数字化的场景对精度要求不高,通用算力(基础算力)即可满足需求。除了 算力精度,不同的应用场景对带宽和延时也提出了不同的需求。例如,需要实时渲染的游戏、自 动驾驶决策、远程手术、工业控制等领域对延迟的要求非常高,而模型训练等场景则对延迟没有 很高要求。同时,基于 AR、VR 等渲染场景,模型训练、超算类等场景对大带宽的需求较高,工 控、物联网采集等则对带宽要求不高。

1.2、算力供给众多问题亟待解决

1.2.1、芯片性能受限,算力网络化是必经之路

从技术发展角度来看,摩尔定律走向尽头,算力向网络化成为趋势。随着摩尔定律逐渐走向尽头, 各界对 More Moore 和 More than Moore 两类技术路线争论不休。不可否认的是,单核硅基芯片 的算力以及多核堆叠带来的算力提升逐渐走向尽头。当单点算力无法持续倍增,通过网络将算力 资源整合到一起为算力不足提供了很好的解决方案。

从国际争端角度看,美国对中国进行先进计算全产业链封锁。芯片产业链壁垒较高,自主打造先 进计算芯片需要时间沉淀,算力网络是打造我国数字基石的另一重要方法。2022 年 10 月,美国 对华制裁政策进一步升级,对华禁售应用在超算领域及人工智能领域的各类高性能集成电路,并 且开启了相关产业链的全面打压。先进计算是军工、生物等多行业高科技发展的关键,是我国建 设“数字基石”最重要的环节之一。美国斩断我国获取先进计算相关芯片的途径,除了自主打造 先进计算芯片,打造算力网络也是我国建设数字基石的另一重要手段。

计算机行业专题报告:算力网络迎来黄金时代

1.2.2、算力成本高,目前无法普惠大众,依然是“奢侈品”

当前算力成本高,无法普惠个人及中小企业,制约科学研究发展。在数字经济时代,算力将成为 水电一样的,能够普惠大众的新型公共资源。然而,昂贵的算力导致普罗大众无法受益于人工智 能发展和数字化转型,同时,算力因其高额成本也无法很好的支撑科学研发及暂时无法商业化的企业研发。华为集群计算总经理朱照群曾举例:“在计算流体力学领域中,一个发动机叶片的仿 真需要 1000 核计算 1 周的时间”,当前,很多机构是无法承受如此高额的算力成本。 算力贵的主要在于高昂的电力及土地成本。电力成本以及土地成本在数据中心建设运营支出中占 比较高。

电力成本占数据中心运营成本的 60%-70%。数据中心需 7x24 小时全天候运营,需要充足的 电力供给保障IT设备及散热设备运营,因此数据中心的耗电量积极庞大。据中国信通院,数 据中心的电力成本占其运营总成本的 60%-70%。而全国数据中心的能耗规模约等于两个三 峡电站的发电量。截至 2020 年底,中国数据中心的耗电量占全国总用电量的 2.7%,预计 2030 年将占全国用电总量的 4%。因此,电价对算力成本的多少起到决定性作用。

数据中心占地面积大,土地成本高。数据中心占地面积大,需要部署各类 IT 硬件、供配电 系统、降温散热设备、安全监控设备等。据华为,单个数据中心的面积达到了 60 个足球场 的面积。例如在贵州枢纽中,腾讯投产的贵安七星数据中心,总占地面积约为 47 万平方米。 因此,土地价格对算力成本的影响非常大。 供需存在错配:东部算力需求大,西部算力供给便宜。我国上海等东部地区信息产业高度发达, 是计算需求最旺盛的地区,然而其较高的电费和土地价格导致东部地区算力成本高昂。贵州、内 蒙等中西部算力需求较低,但其较低的电力成本和土地价格更适合算力基础设施的建设。

计算机行业专题报告:算力网络迎来黄金时代

1.2.3、制冷散热耗能高,不利于实现碳排放目标

数据中心耗能高,不利于“双碳”目标的实现。数据中心的用电量不断增长,不利于碳排放目标 的实现。数据中心运转会产生大量的热量,制冷和散热是保障数据中心平稳运行的关键,这个过 程会消耗大量的能量。据华为,数据中心在降温过程中所消耗的能量占数据中心总耗能的 40%左 右。

采取清洁能源供电、自然降温等方法是数据中心减少碳排放的关键。从供给侧来说,数据中心可 以通过采用节能技术,使用清洁能源等方式改善碳排放过量等问题。另一方面,用自然方式降温 辅助制冷能够有效减少数据中心耗能。各大云厂商为了服务器降温也各显神通,如腾讯在贵安的 隧洞内建立了一个绿色高效的灾备数据中心,微软曾在将数据中心投放到苏格兰附近的北海中。

供需存在错配:东部算力需求大,西部建设数据中心更利于减少碳排放。我国东部信息产业发达, 算力需求大。而我国中西部地区具备丰富的风电、光伏、水电等清洁能源,显著减少碳排放。同 时,西部地区适宜的气候与地理条件还为散热、制冷等环节提供了天然环境,以乌兰察布市为例, 只有 4.3 摄氏度的年平均气温意味着每年有近 10 个月可以不使用设备,而是利用环境实现自然冷 却,更加适合数据中心的建设,利于达成“双碳”目标。

1.2.4、计算资源利用率有待提升

高时延、窄带宽等问题制约网络传输效率。以目前的传输速度,中长距离传输仍会产生较大时延, 网络难以承载如电子交易、高清视频直播、虚拟现实、云支付等对低时延要求较高的业务。此外, 面对复杂多样、要求不一的计算任务,网络对于高带宽的需求也不断增加,如气象预测就需要超 大带宽。当网络负载超过网络容量上限时,就会产生网络拥塞,出现丢包等问题。 网络互联效率成为算力提升瓶颈。在算力供给侧,数据中心存在“1+1 远小于 2”的业界难题。 由于大规模服务器集群依赖于网络实现互联,因此,当多台服务器向一台服务器同时发送大量报 文时,会导致报文数量超过交换机的缓存承受能力而产生丢包。而丢包造成的数据重传,又将极 大地影响计算和存储的效率。在近些年备受业界青睐的 RoCE(RDMA over Converged Ethernet)网络中,0.1%的丢包率就会导致 50%的算力下降,造成服务器 CPU 资源的严重浪费,成为算力 提升的瓶颈。

计算机行业专题报告:算力网络迎来黄金时代

1.3、算力网络的建设赋能算力作为基础资源普惠大众

算力应该是水、电一样普惠大众、随取随用的公共基础资源。早在 1961 年,美国教授 John McCarthy 就将算力类比为电话服务,可以随取随用。到了 1990 年,美国 Ian Foster 教授将算力 与电力类比,提出算力是一种公共服务。今天,我们来到了数字经济时代,算力将成为水、电一 样普惠大众、随取随用的公共基础资源,为社会高效发展赋能,最终实现“网络无所不达、算力 无所不在、智能无所不及”的社会愿景。

算力网络是提供普惠算力的最优解,或将成为智能时代的标志性基础设施。目前,算力对大部分 公司、科研院所、个人来说都是奢侈品,没有成为普惠大众的基础资源。像上述所讨论的那样, 我国算力存在着供需失衡、成本较高、鲁棒性不足等问题。急剧增长的全行业计算需求与相对较 慢的迭代发展速度造成了算力供需失衡;同时,地理位置上聚集于东部、行业上大量存在于互联 网企业等分布特点也对算力资源的合理分配构成阻碍,算力流动进而导致成本不能有效满足普惠 发展需求;此外,数据中心的建设带来了更加复杂的算力应用场景,随之带来的偶发性算力需求 激增和隐私数据安全保护诉求对各节点的鲁棒性、安全性提出了更高的要求。为解决以上难点, 实现跨地域与跨行业共享、弹性按需调动,算力网络应运而生,成为算力资源健康发展的最优解。 在不久的将来,算力网络将成为这个数字经济时代、智能时代的标志性基础设施。

算力网络:云边端节点全连接,动态感知、灵活调度。算力网络是通过新型网络技术将云、边、 端等分散的算力节点连接起来,动态实时感知算力资源状态,根据业务需求进行统筹分配和调度。 不同的业务需要的算力种类、带宽、延时不同,然而在算力网络中用户无需关心网络中计算资源 的位置和部署状态。算力网络可以实时感知客户的算力需求,并根据算力资源池的情况,给客户 自动调配符合其需求的最优算力,获取算力将像获取水、电一样便捷、价低。

二、确定性网络、算力调度、安全是算网建设的关键

2.1、算、网、脑协同,共同构建高效算力网络

算、网、脑共筑算力网络。算力网络的概念提出后,科研院所、三大运营商、华为等各方纷纷对 算力网络做出探索和实践,目前还没有形成统一的定义以及标准架构。据华为对算力网络的构成 的讨论,算力网络主要由算、网以及脑三部分组成。其中,计算、网络属于基础设施,基础计算 设施负责提供计算资源,基础网络设施负责连接网络,而脑负责全域动态感知、跨域协调调度、 多域融合编排以及智能计算出最优协同方案。

高效算力需要专业、弹性、以及协同。《中国联通算力网络白皮书》中对高效算力的三个关键因 素作出解释。第一,聚焦专用场景,用更低的成本和功耗完成计算。第二,网络为算力的需求和 供给间提供敏捷的连接和灵活调整能力。第三,应该进行资源的充分利用。处理器内部核之间的 协作,到数据中心里多个服务器见的协同,到网络边缘的随选算力。算力协作可以使算力资源充 分被使用。

计算机行业专题报告:算力网络迎来黄金时代

2.2、超大带宽、超低时延的确定性网络是算力调度的基础

目前网络时延较高,应用场景仍受限。目前,由于时延问题,中长距离算力调度如“东数西算” 中的应用场景仍以网络时效性较低的场景如游戏影音制作、人工智能模型训练等冷、温数据为主。 网络连接延迟主要由光纤延迟和路由、转发延迟造成。其中光纤延迟是因为光纤内玻璃折射而降 速为真空中光速的 1/3,约 5ns/m,即每 200 公里传输距离产生 1ms 时延。国家发改委的制定 《全国一体化大数据中心协同创新体系算力枢纽实施方案》中提出,枢纽节点数据中心端到端单 向网络时延原则上在 20 毫秒范围内,而城区内的数据中心作为算力“边缘”端,数据中心端到端 单向网络时延原则上在 10 毫秒范围内。

网络时延的下降需要网络架构、技术升级等多方面共同发力。针对目前网络时延问题,运营商运 营商们正在推进“网络骨干直连”建设,通过加密枢纽之间光缆连接,建设直达光缆等手段,降 低跨区域间的流量绕转,实现流量就地交换,从而降低时延。另一方面,业界也在对未来网络进 行研发与测试,目前已通过 RDMA 等通信协议替代 TCP 协议的确定性网络方案大幅提升网络带 宽利用率等方式,降低传输时延。

确定性网络提供低延迟、高稳定性,满足新兴业务网络需求。许多新兴业务如智能驾驶、远程医 疗、智能农业、工业控制等,需要将端到端的延时控制在 1-10ms、时延抖动控制在微秒级,同时 将可靠性控制在 99.9999%以上。在此背景下,业界迫切需要建立一种可提供“准时、准确”数 据传输服务质量的新一代网络,这就是确定性网络。确定性网络是相对于传统的尽力而为网络而 言的,尽力而为网络的问题在于数据传输的稳定性不够,比如带宽时高时低、时延时长时短。以互联网为例,浏览网页、看视频等应用对传输的确定性要求并不高。确定性网络通过时钟同步、 频率同步、 流量整形、资源预留、时敏流调度、灵活切片等技术,实现了低时延、低抖动、低丢 包率、高带宽、高可靠的网络服务。

确定性网络的技术关键在于实现确定性时延、抖动、丢包率、带宽和可靠性等。确定性时延主要 通过时钟 同步、频率同步、调度整形、资源预留等机制实现;确定性抖动和丢 包率通过优先级 划分、抖动消减、缓冲吸收等机制实现;确定性带宽 通过网络切片和边缘计算等技术实现;确定 性可靠性通过多路复用、 包复制与消除、冗余备份等技术实现。确定性网络技术目前主要包括灵 活以太网(FlexE),时间敏感网(TSN), 确定网(DetNet),DIP(Deterministic IP)技 术,确定性 WiFi ,以及 5G 确定性网络等技术。

确定性网络通过各类技术实现相应性能目标。FlexE 通过接口技术在物理层和链路层之间插入中 间层,实现业务速率和物理通道速率的解耦,构建智能端到端链路,实现网络切片,支撑带宽资 源弹性灵活的分配和保障,从而提供确定性带宽保障;TSN 和 DetNet 则把数据分为“时延敏感 流”和“尽力而为流”并将其隔开,从而确保时间敏感型数据传输的高效;而确定性 Wifi 和 5G 确定性网络则过网络切片实现确定性带宽保证,借助低延 迟技术和边缘计算等实现端到端确定性 控制。目前各项技术均处于研发、试点或商业化阶段,为将来的确定性网络建设与升级打下良好 基础。

计算机行业专题报告:算力网络迎来黄金时代

确定性网络在多地多领域展开实践性探索。目前,各地正针对全新的网络架构对未来网络实验设 施(CENI)展开成果验证。如山东已建成并运行覆盖 16 个地市、5600 公里的全球首张确定性网络,其核心节点时延抖动控制在 20 微秒以内,主要性能指标达到国际领先水平。如在南京到贵阳 途中进行了确定性网络和非确定网络对比实验,结果表明,在 2450 公里的 100G 试验网络中,非 确定性网络存在大量拥塞,带宽利用率不足 10%,难以满足数据中心跨广域的无损数据传输需求, 而在确定性网络下,峰值传输速率可提升至 88%,达到数据中心内部无损网络传输水平。如远程 医疗领域,通过确定性网络实现远程手术控制。2022 年 2 月,青岛大学附属医院副院长牛海涛团 队,在济南操控一台机器人,为远在青岛动物实验室的动物猪进行了肾脏摘除术,整个过程网络 时延不到 6毫秒。在能源互联网方面,确定性网络可精准同步电力信息,最高可降低企业 10-20% 的能耗。

2.3、感知调度成算网建设关键,国重实验室积极牵头试验

我们前面说的“脑”,就是在算力网络中起到感知全局、统筹弹性调度全网资源的作用。当前, 算网建设在全网的感知和调度上还有一定的困难。一方面,不同业务对算力精度、带宽、延迟等 关键能力有差异化需求。另一方面,数据中心等算力提供方所在的区域、算力成本、能够提供的 资源类型均不相同。如何将适合的计算资源分配给需求方成为关键。另外,算力的多样性、芯片 和指令系统的异构对节点的直联通信、算力的统一调度提出挑战。

“算脑”需要全域感知、跨域协同、多域融合编排以及智能辅助决策的能力。“脑”需要对算力 资源和算力服务的部署位置、实时状态以及负载信息、业务需求具有全面感知,形成全域感知地 图。其次,要可以实现跨域协同调度、多域融合编排。同时,能够根据资源池分布、网络整体堵 在、不同业务的需求,进行智能辅助决策。算网的感知调度涉及算力度量、算力标识、算力感知、 算力建模、算力编排调度等多个环节及相关技术难点。目前,我国多家科研机构牵头进行算力网 络感知调度的试验。华为、三大运营商等公司也积极参与部署。

2.3.1、中科院计算所牵头、众多企业参与,共同打造全国“信息高铁”

中科院计算技术研究所所长、计算机体系结构国家重点实验室主任孙凝辉院士是我国高性能计算 机领域的主要学科带头人,开辟了中国用机群架构研制高性能计算机的新方向。孙院士提出了一 种指向IT3.0的新兴基础信息基础设施——“信息高铁”,也就是“算力网络”。信息高铁由云、 网、端的新型设备和一个控制中枢组成。而这个控制中枢起到的就是“算脑”的作用,可以全局 测调的作用。

计算机行业专题报告:算力网络迎来黄金时代

2.3.2、鹏城实验室领头、华为助力,打造“中国算力网”

鹏城实验室打造“中国算力网(China Computing NET, C²NET)” ,已接入全国多个算力节点。 早在2019年,鹏城实验室就在发改委的部署下开始了中国智算网建设预研项目,研发了兼容多种 异构 AI 芯片的核心软件栈与分布式调度平台。集合的算力总量为超过 2.3E 半浮点精度的运算能 力,算力资源包括华为的 NPU、寒武纪的 MLU、英伟达的 GPU 等,该预研项目已经于 2022 年 6 月完成验收。

2022 年 5 月 29 日,鹏城实验室主任高文院士公布 “中国算力网(China Computing NET, C²NET)”研究计划,其目标是像建设电网一样建设国家算力网,像运营互联 网一样运营算力网,让用户像用电一样方便地使用算力。2022 年 6 月 15 日,鹏城实验室联合华 为共同打造的“中国算力网-智算网络一期”正式上线。目前,已有鹏城云脑、西安、武汉、青岛、 济南、沈阳、广州、重庆、昆明、福州、长沙、河北(廊坊)等 20 多个节点接入中国算力网,包括人工智能计算中心、超算中心、一体化大数据中心等。未来,中国算力网计划接入更多节点, 建立全国一体化算力网络。

华为发布跨区域算力调度 IP 网络解决方案,智能云图算法可将算力运输效率提高 30%以上。经 过三十年的技术积累,华为依托于自主研发的智能无损算法和智能云图算法,发布了业界领先的 跨区域算力调度 IP 网络解决方案。华为开发了智能云图算法(智能云图 Edge-Disjoint KSP 算法) 以解决传统广域网采用的最短路径调度造成的链路利用率不均衡、多路负载分担的业务对网络的 差异化需求问题以及过往对云池因素(如算力负载、成本、存储)的忽视等问题。该算法基于云 因子与网因子的一体化调度,可根据企业的需求选择最佳云池,实现多源到多宿的云网资源平衡, 提高算力运输效率 30%以上。2022 年 12 月,面向分布式云场景下的新一代云原生产品华为云 UCS 正式商用。UCS 基于华为云贡献至 CNCF 的开源项目 Karmada,结合分布式调度器可实现 算力跨云跨地域统一调度。

2.3.3、未来网络研究院携手浪潮,助力算网资源协同调度

浪潮携手山东未来网络研究院,实现算网统一调度。在浪潮和山东未来网络研究院的共同助力之 下,云网数协同联合实验室应运而生,在数字政府建设引领的数字化转型时代呼唤下,依托浪潮 在分布式云计算领域区块链、数据分发、资源调配等技术积累,建设一体化大数据平台并研发浪 潮云洲算网一体机,实现算力、数据、技术、系统等资源的一体化管理和协同调度。一体化大数 据平台对闲散算力、超算资源和智算资源三种类型的算力均有高度兼容性,算力以私有云、公有云和边缘云三种可选方式接入平台后,通过算力纳管、算力调度和算力应用三种算网一体机设备 实现快速部署和算网资源高效调度,在网络控制层次实现资源协同,进行“云-边-端”间的算力 合理调配,从根本上打通了当前算力与网络之间难以融合的痛点堵点,针对工业生产企业提供性 能、安全、成本兼备的算力服务。浪潮深耕算网发展领域多年,秉持分布式云概念来建设算网产 业,目前已成功构建了覆盖全国的算力网络生态体系,满足政府和不同领域的企业的计算需求, 催化中国数字经济的高速发展。

计算机行业专题报告:算力网络迎来黄金时代

2.3.4、电信在甘肃节点打造一体化算力平台,“东数西渲”成功落地

“东数西渲”创新尝试,甘肃电信争做算网建设排头兵。响应国家“东数西算”工程号召,甘肃 于2021年底拉开了全国一体化算力网络国家枢纽节点建设的帷幕,中国电信云网融合的发展思路 与国家政策不谋而合,于甘肃打造云网融合、绿色低碳的一体化算力调度平台,通过建设新型智 慧城市来上承“数字甘肃”,下连“数字乡村”,目前甘肃算力网络建设依照“2+14+X”的规划 布局,已建成 2 个省级、14 个市州大数据中心和 52 个县级 IDC 数据中心,云资源能力提高至 45 万 VCPU,存储量达到 30PB。甘肃电信使用天翼云 4.0 技术底座,集成 5G+、行业云和 A 等先 进技术,实现算力、存储量、传输效率等多方面性能提升。不仅如此,作为算力网络建设的试点 地,甘肃电信目前已完成“东数西渲”的落地与验证。“东数西渲”着眼三维重建业务,将东部 采集的图像音频数据传输到西部节点,利用甘肃清洁廉价的高质量算力进行计算与模型渲染,目 前已经覆盖 600 多个商业综合体、30 多个景区与博物馆,作为“东数西算”的创新尝试探索, “东数西渲”的成功充分验证了算力网络落地的技术可行性。

2.4、筑牢安全底座,打造可靠算力网络

算网被攻击的风险明显增大,攻击手段也在升级。当前,网络空间已经成为继陆、海、空、天之 后的第 5 大国家主权领域空间,算力是转换数据价值的生产要素,算力网络能够为产业创新提供 高质量、低时延、低成本的算力,算网信息基础设施及其衍生数据的价值大幅提升。但是,算网 终端的泛在接入导致的攻击暴露面增加、算网全网安全的高效闭环管控复杂度提升、因数据交易 新商业引入的端到端数据安全风险和管理复杂度双提升等等都增大了算网被破坏的风险。

网络安全问题危及国家安全。2022 年初的俄乌战争中,乌克兰的外交部、教育部、农业部、国防 部等网站遭到了严重的攻击,很多重要信息遭到泄露,俄罗斯的新闻网站也无法访问,这种大规 模的 DDoS 攻击严重破坏了国家安全。东数西算作为我国的战略性工程,需要构建数据中心、云 计算、大数据一体化的新型算力网络体系。奇安信的韩永刚指出,东数西算工程面临三大挑战: 首先,八大枢纽、十大集群是算力和数据汇聚点,会成为网络攻击的重点对象,面临定向勒索攻 击、DDoS 攻击、数据窃取与数据破坏的风险激增;第二,在云网一体化过程中,各类针对混合 云计算环境、应用 API 的安全问题会持续出现;第三,在整个算力工程中,无论是面向业务、算 力调度,还是基础设施,都面临着不同的安全威胁,需要重视。因此,网络安全建设刻不容缓。

计算机行业专题报告:算力网络迎来黄金时代

2.4.1、用可信计算筑牢网络安全防线

沈昌祥院士提出构建网络安全主动免疫新系统。主动免疫可信计算是一种运算同时进行安全保护 的新计算模式,以密码为基因抗体实施身份识别、状态度量、保密存储等功能,及时识别“自己” 和“非己”成分,从而破坏与排斥进入机体的有害物质。左边的计算部件是典型冯·诺依曼的体 系结构;右边是防护部件;下面的可信密码模块相当于基因,TPCM 控制模块是抗体,产生白细 胞循环相当于可信软件基,保证左边的计算部件、应用软件能准确按照原定设计的计算目标工作, 这样的系统才是主动免疫的。此外,还要保证人机可信交互和基础设施体系架构的安全,对人的 操作进行识别和控制,用可信密码的技术检查基础设施,确保各环节安全可信。

2.4.2、可信计算体系技术创新仍在继续

可信计算密码技术创新。首创用对称和非对称密码相结合可信计算密码混合体制,使得可信密码 机制更为科学合理,提升了系统的安全性能。同时采用双证书的平台证书认证系统,用加密证书 保护密钥,并且将加密功能和认证功能分离管理,简化了证书管理,增强了安全性。 可信平台控制模块的创新。可信平台控制模块作为可信根连接主机的计算部件,TPCM 在连接 TCM 模块的基础上增添对计算部件和外设的总线级控制功能。同时通过密码机制与控制机制相结 合,保证系统初始启动过程的可信性,主机启动后继续对系统软硬件执行过程进行动态控制,达 到全方位平行可信的验证控制。

可信软件基的创新。在原宿主软件系统不变的条件下,构建基 TPCM 对宿主系统进行动态可信验 证的可信软件基,形成双软件架构,通过可信软件基对系统运行环境实施可信保障。可信软件基 在 TPCM 的支撑下解释可信策略,通过在宿主操作系统代理主动拦截获取的有关参数进行度量验 证,实现判定和执行等安全机制。 可信网络连接的创新。针对集中控管的网络环境安全需求提出三元三层对等可信网络连接架构, 通过安全管理中心集中管理,对网络通信连接的双方资源实施可信度量和判决,有效防范内外合 谋攻击。

三、全国一张网,算力网络迎来黄金时代

3.1、国家政策持续推动,全国一体化算力网络

利好政策助力算力网络高速发展。算力网络已成为国家重点发展领域之一,利好政策持续出台, 未来行业发展前景广阔。2020 年 12 月,《关于加快构建全国一体化大数据中心协同创新体系的 指导意见》首次提出全国范围内数据中心形成布局合理、绿色集约的一体化格局。 2021年 7 月, 工信部发布《新型数据中心发展三年行动计划(2021-2023 年)》,计划建设全国一体化算力网 络。2022 年 2 月,发改委发布《国家发展改革委等部门关于同意京津冀地区启动建设全国一体化 算力网络国家枢纽节点的复函》,标志着 “东数西算”工程正式启动,我国算力网络发展扬帆起 航。

计算机行业专题报告:算力网络迎来黄金时代

3.2、“东数西算”拉开全国一体化算力网络序幕

2022 年 2 月,“东数西算”正式启动。2022年2月 17 日,国家发改委、中央网信办、工业和信 息化部、国家能源局联合印发通知,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵 州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了 10 个国家数据中心集群。至此,全国一体化大数据中心体系完成总体布局设计,“东数西算”工程正式全面启动。

“东数西算”工程主要利用西部地区的资源优势提供算力支撑。从资源潜力和需求分布的角度, “东数西算”工程与“南水北调”、“西电东送”、“西气东输”等国家重大工程类似。如第一 章所论述,数字经济发展和数据资源的产生主要集聚在我国的东部地区,而西部地区则有着较为 充沛的土地、能源资源,通过“东数西算”工程的实施,可以将东部地区算力需求有序引导到西 部,优化数据中心建设布局、推动区域协调发展,同时也是扩大有效投资的手段。

8 大算力枢纽、10 大数据中心集群构成“东数西算”整体构架。按照全国一体化大数据中心体系 布局,8 个国家算力枢纽节点将作为我国算力网络的骨干连接点,开展数据中心与网络、云计算、 大数据之间的协同建设,并作为国家“东数西算”工程的战略支点。每个枢纽节点将发展 1-2 个 数据中心集群,算力枢纽和集群的关系,类似于交通枢纽和客运车站,数据中心集群将汇聚大型、 超大型数据中心,具体承接数据流量。同时,为了避免数据中心的盲目发展,国家对 8 个算力枢 纽、10 个数据中心集群的物理边界进行划定,同时要求集群内数据中心的平均上架率至少要达到 65% 以上,该限制措施可以有效提升算力设备的利用率,减少设备与能源的浪费,顺应国家对产 业绿色化发展的要求。截至目前,“东数西算”工程稳步推进,8 大算力枢纽中新开工数据中心 项目 60 余个,新建数据中心规模超 110 万标准机架, 项目总投资超 4000 亿元。

作为链接“贵州-粤港澳”与“贵州-长三角”两线需求的数据中心走廊,贵州具备承接全国算力 服务建设的基础。贵州于 2017 年建成国家级互联网骨干直联点,2019 年成为国家根服务器镜像 节点和国家顶级域名节点,2020 年建成国际互联网数据专用通道,数据中心和算力枢纽的超前规 划赋予贵州在“东数西算”工程中的“先行者”身份。同时,贵州拥有数量位居全国榜首的超大 型数据中心,是处理、计算冷数据和温数据的适宜沃土,适宜气候和绿色电力优势也为降低能耗 和减少运行成本提供良好条件。秉持着适度超前布局有利于国家发展和引领产业升级的算力设施 的理念,近期发布的《贵州省新型基础设施建设三年行动方案(2022-2024 年)》中提出,贵州 将加快推进“东数西算”工程,到 2024 年基本建成面向全国的算力保障基地,计划在 2025 年全 省数据中心标准机架达到 80 万架、服务器达到 400 万台,累计建成 5G 基站 16 万个以上,云服 务产业规模达 700 亿元以上。

计算机行业专题报告:算力网络迎来黄金时代

成都千万级“算力券”提供配置资源新解法。成都近日印发《成都市围绕超算智算加快算力产业 发展的政策措施》,推动成都算力产业高质量发展。作为全国首个算力产业专项政策,致力建设 算力调度平台与超低时延算力网络、创新提出从完善算力要素保障向全产业链要素集聚的发展路 径、算力招商、算力引才等举措。“算力券”的提出则是这项政策最大亮点所在。为解决中小微 企业算力匹配难、应用少的痛点问题,成都市推出每年发放总额不超过 1000万元的、针对算力资 源消费免费发放的权益凭证,即“算力券”,可以“随取随用”地使用算力资源,使用政府补贴 的方式帮助中小微企业。 同时为算力供给方通过建立备用金制度将市场交易转换为财政补贴,提 供资金保障的同时也可为供给方拓展企业客户。

立足国内,放眼国际,上海探索建设构建“1+1+N”算力供给体系。上海市发布的《新型数据中 心“算力浦江”行动计划(2022-2024 年)》中提出,将致力于建设支撑上海市构建公共服务、 政务支撑、商业服务“1+1+N”的算力供给体系,探索建设全国首个算力交易集中平台,将上海 建设为国际数字经济标杆城市。计划确定了三个重点任务:首先,加快信息数据中心集群建设, 提升存量数据中心平均利用率,同时要求数据中心单体机柜功率不低于 6kw,意味着低功率密度 机柜开始彻底退出算力网络建设,预示后续几年间功率密度将保持更大幅度提升,数据中心单机 柜朝着高密度发展方向持续推进,从而有效降低 PUE,推动数据中心绿色化进程;其次,布局边 缘数据中心,规划布局 3 个以上数据中心,构建边缘算力供给体系;最后,探索布局国际数据中 心,建设临港国际数据港绿色数智枢纽。

绿色低碳和快速发展并重,青海着眼算力网络合理布局。与贵州相同,青海同样对未来算力产业 进行了超前布局。《青海绿色零碳算力网络建设行动计划(2023-2025 年)》中,明确了未来三年 间的算力网络建设目标与任务,因地制宜发挥地域优势来实现绿色零碳,推进“西北数谷”建设。 政策设定了算力网络建设目标:到2025年,青海算力规模与数字经济增长相适应的算力网络发展 格局基本形成,大数据中心机架规模超过 10 万架,总算力超过 2.06EFlops。青海将数据中心高速 扩张与注重绿色节能、致力实现可持续发展并重,严格规定新建数据中心 PUE 值(能源使用效率) 严格控制在 1.2 以下,同时通过打造 1 个算力资源调度核心和 1 个存储资源调度核心、严格要求 整体投运后利用率不低于 65%来减少资源浪费、避免数据中心的无序扩张,体现了布局合理、绿 色低碳、集约高效的建设理念。

算力网络发展长坡厚雪,相关设施建设如火如荼。目前全国各地正积极推动相关算力网络建设, 从而让数据中心发挥更强大的功效。整体看,工信部在《新型数据中心发展三年行动计划 (2021-2023)》中提出,到 2023年底,全国数据中心机架规模增速应保持在 20%左右,平均利 用率提升至 60%以上,总算力超过 200EFLOPS。国家枢纽节点数据中心端到端网络时延降低至 20 毫秒以下。从各省来看,以山东省为例,目前山东已开通建成 5G 基站超 16 万个,物联网终端 超 1.53 亿户;枣庄、济宁、威海等 12 个城市入选国家“千兆城市”,将全省数据中心跨网时延 降低到 50ms 以下;并建成首张 5600 公里确定性网络,完成 2.0 版建设升级,将时延、抖动性能 提升至国际先进水平。未来,山东计划用 3 年时间建成 45 万个 5G 基站,并加快新型数据中心建 设,推动算力应用于更广泛的生产生活场景。

计算机行业专题报告:算力网络迎来黄金时代

3.3、“东数西算”只是开端,算力网络建设将持续推进

算力网络的发展进程划分为初步协同、共同调度和融合一体三个阶段。在初步协同阶段,算力和 网络仍然各自为战,编排调度并不融通,但开始向协同运营发展转变,算力基础设施布局由集中 式走向分布式,逐渐实现资源按需调配、宽地域多行业协同的网络布局。紧接着进行的是算力和 网络的共同调度,虽然算力和网络仍然为独立的个体,但共享的调度中心实现算网资源的统一管 理、灵活编排,大大提高所有时空下的算力资源利用率。最后进行的融合一体阶段同时也是整个 算网发展的最终愿景,即建成算网一体化基础设施,用户在完全无感的情况下使用最佳调度分配 的低成本算力。

“东数西算”是我国建设算力网络的初步探索,节点互联与算力统筹调度是接下来的关键。当前 “东数西算”工程正有条不紊地持续推进,数据中心犹如雨后春笋般在全国各地快速建立。然而 部署算力只完成工程的第一步,随着基础设施建设进度不断推进,接下来要进行的是各节点之间 的互联互通、实现算力统筹调度,将全国算力资源纳入总体布局,实现需求供给间的精准对接。 实现算力一体化,完成各节点之间的互联互通成为接下来工作的难点与重点。

各地尝试打造区域性算力网络、东西部互联网络,争先实现高效互联与算力调度。甘肃、宁夏等 多个枢纽节点发布文件,旨在建成省内统一的算力供给体系,建立算力调度平台,实现省内算力 资源的统一调配,同时,这些地区也对与长三角、京津冀等地的互联互通做出探索。另外,清华 大学计算机系高性能计算研究所与东数西算(贵州)产业有限公司成立“东数西算”算力实验室,旨在共同建设枢纽节点间的算力网络、新型算力中心及算力调度服务平台,建设贵州枢纽与长三 角枢纽间东西部互联的算力网络与新型算力中心试验示范工程,实现东西部算力的高效互联与调 度。

2023 年 2 月,国内首个一体化算力交易调度平台——东数西算一体化算力服务平台正式上线, 首先在宁夏实现零散算力资源整合,并为包含智算、超算、通用等多种算力提供包括供需匹配、 调度使用在内的丰富综合服务,助力实现东西部算力自由流动,有效环节算力地域供需不平衡问 题。在可预见的未来中,在算力调度中心建设的推动作用下,八大枢纽节点与重点城市的算力高 速传输即将实现,打通不同行业、地域、层次间存在的算力壁垒,推动全国一体化算力建设。另 外,网络建设如火如荼。

目前,山东已开通建成 5G 基站超 16 万个,物联网终端超 1.53 亿户; 枣庄、济宁、威海等 12 个城市入选国家“千兆城市”,将全省数据中心跨网时延降低到 50ms 以 下;并建成首张 5600 公里确定性网络,完成 2.0 版建设升级,将时延、抖动性能提升至国际先进 水平。近日,广东电信与华为携手打造粤港澳大湾区首张 400G 全光运力网络,部署先进的全光 交叉 OXC、超高速 400G 等解决方案,为韶关、广州以及深圳提供“超低时延、超大带宽、超高可 靠”的运力网络。

计算机行业专题报告:算力网络迎来黄金时代

3.4、企业积极推动建立算力网络标准,打造健康生态

运营商、设备商积极推动国内外算力网络相关标准建立,明确算力网络发展路线。为进一步明确 算力网络技术发展路线,确定算网发展方向,相关运营商、设备商持续在国际与行业标准组织中 推动算力网络技术标准落地。

国际方面,国际电信联盟(ITU-T)发布了中国运营商牵头制定的算力网络架构标准 Y.2501; 同时中国运营商牵头立项了 Y.IMT2020-CNC-req、Y.ARA-CPN、Y.NGNe-O-CPN-reqts、 Y.CSO、Y.SASO 等 11 项算力网络标准;在 IETF(国际互联网工程任务组),华为及三大 运营商开展了 Computing First Network(CFN)架构研究,并在 IETF 第 113 次会议上牵头 发起了算力感知网络(CAN)的 BoF,推动算力感知和算力路由在需求、场景等方面达成共 识。 国内方面,中国通信标准化协会(CCSA)网络与业务能力技术工作委员会(TC3)中,三 大运营商牵头开展了算力网络总体技术要求、标识解析技术要求、算力网关设备技术要求等 10 余项算力网络标准制定,现已初步建立算力网络标准技术体系。

技术沉淀奠定坚实基础,三大运营商成为算网生态建设先行者。作为一个庞大的基础工程,算力 网络的建设不可能一蹴而就,必须要实现有选择的、合理逐步推进的建设方式。国内三大运营商 于通信领域深耕多年,所拥有的大量经验、长期沉淀得到的技术基础与肩负的社会责任使其成为 算网建设中的探路者。中国移动对逐步建设给出了“五纵三横”的战略研判,规划布局以 5G、算 力网络、智慧中台建设为重点的“连接+算力+能力”新基建,同时乘 5G 专网全面升级的东风, 启动产业孵化中心,开展“联创+”联合研发计划,着力构筑移动云“N+31+X”的资源池布局和 全网1+M+B产业孵化布局。

中国联通于标准制定和技术发展两方面同时着手,不仅牵头成立“中 国联通算力网络产业技术联盟”、联合华为组建算力网络联合实验室,还积极探索从云网融合迈 向算网一体, 打造“1+N+X”的算网一体服务,打造物联感知云、数海存储云、5G 边缘云等云 产品。 中国电信提出“网是基础、云为核心、网随云动、云网一体”的云网融合方向,进一步完善“2+4+31+X+O”的云和大数据中心布局,提出要将算力融入上海电信“智云网络”全新架构, 构建垂直行业“算法仓”,为用户提供“算法超市”服务。

着眼算力网络基础设施构建,云计算厂商为算网生态建设添砖加瓦。目前算力网络建设仍处于初 期阶段,建设数据中心、完成基础设施布局成为当下核心任务,云计算厂商顺应发展趋势与国家 需要,投身网络布局建设产业中。华为专注构建“鲲鹏+昇腾”算力底座,推出一体化集群计算 解决方案,目前使用昇腾 AI 方案的城市都进入了上线即饱和的运行状态,各地的智算中心有机融 入“中国算力网——智算网络”布局。阿里云在全球 25 个地域部署了上百个云数据中心,同时规 划建设了 5 座超级数据中心;腾讯云同样计划在未来 5 年间新增多个超大型数据中心集群。在云 计算厂商技术研发与资金投入下,“东数西算”工程快速推进,算力网络基础设施建设高速进行, 实现算力“随取随用”、成为基础资源指日可待。

计算机行业专题报告:算力网络迎来黄金时代

3.5、建立全国一体化算力网络志在必行

中共中央、国务院发布数字中国建设纲领,明确夯实数字基础设施。2023 年 2 月 27 日,中共中 央、国务院印发《数字中国建设整体布局规划》(简称《规划》)。《规划》明确提出夯实“两大 基础”——数字基础设施和数据资源体系。这二者正是科技发展、数字经济蓬勃的基础,是我国构 筑竞争优势的最佳保障。只有基础牢固坚实,上层应用才能繁荣,数字化建设才能百花齐放。同 时,《规划》强调打通数字基础设施大动脉,加快 5G 网络与千兆光网协同建设;同时系统性优化算力基础设施布局,促进东西部算力高效互补和协同联动。明确体现了国家建立全国一体化算 力网的决心。

建立算力网络,发挥“乘数效应”助力经济产业发展。无论是在传统行业、还是在数据重要性日 益凸显下催生出的新兴行业中,算力网络的建立都能在产业发展中起到“催化剂”的作用。在传 统行业领域中,随着数字经济快速发展,数字化转型成为不可逆转的时代趋势,算力网络提供随 取随用的算力资源,与其他生产要素协同推进产业快速发展,展现出的乘数效应使其成为产业发 展的“放大器”。同时算力基础设施化为新型智能产业高速发展提供了基础资源,有效降低智能 计算相关行业的运营成本,自动驾驶、智慧城市等智算应用场景转为现实的可能性得到展现,为 更多先进技术的商业化落地提供良好的发展环境,国家经济发展被注入了新的蓬勃活力。算力网 络不仅助力新老产业高速发展,同时在其从理论走向现实、进而实现商业化落地的过程中,也催 生了新兴技术的诞生和迭代,有效拓展智能计算技术领域,赋予数字行业发展更多可能性。

打破强者恒强、维护国家安全,算力网络扮演的社会责任重抵千钧。在算力无法流通、成本昂贵 的情况下,资源垄断自然形成,算力资源被大量掌控在大型企业当中。建立算力资源基础设施, 达到随取随用的同时降低算力资本,不仅仅能够赋能政府的公共服务,同时可以使中小企业、乃 至个人都受益于智能化,打破“强者恒强”的算力格局。此外,算力网络的建设为科学计算、航 空航天、军工等行业提供发展动力,使中国在全球竞争中拔得头筹,为国防事业筑起科技保障, 维护国家安全、助力中国在纷乱动荡的国际格局中成为屹立不倒的巍巍青松。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】

0 留言

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
验证码