数据中心现状与智算化挑战分析

数据中心现状与智算化挑战分析

最佳答案 匿名用户编辑于2025/03/11 14:52

数据中心是数据存储和计算的中心,网络通信的枢纽。

据《数据中 心应用发展指引》统计,数据中心有 55.5% 接入骨干网。数据中心接 入核心网络主要是出于客户对带宽和速率的需求考虑,而节点也分布在 我国核心城市,大量的数据从城市、基站汇聚到数据中心进行处理、存 储及传送。用户对流量使用习惯的逐步养成,对网速的高要求,推动网 络流量快速增长,从而带动数据中心迅速发展。 随着数字经济时代的到来,数据成为新的生产资料,而算力则成为 新的生产力。在万物互联的背景下,数据量爆炸式增长,对算力的需求 达到前所未有的高度。2021 年,我国开启“东数西算”工程,涉及京津 冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等 8 个 地区,并规划了 10 个国家数据中心集群,旨在形成高效的数据处理和 传输网络,为满足智能算力的快速增长需求和数据中心向智算中心的发 展奠定基础。截至 2023 年底,我国算力总规模达到 230EFLOPS,其中 智能算力规模达到 70EFLOPS。“东数西算”干线光缆规划已超过 180 条, 骨干网互联带宽扩容到 40T,全国算力枢纽节点时延 20ms 时延圈已经 覆盖全国主要城市。

投资方面,数据中心成本包括投资成本和运营成本,初始一次性资 本支出高。资本投入中,大部分资金占比用来购置 IT 设备,包括服务 器数据存储设备、带宽资源等高价值软硬件设施,数据中心建设资金需 求高。同时,地理位置是行业竞争的关键,也与其提供的服务质量和成 本密切相关。受客户分布不均影响,同时为了满足主要客户对低时延、 高可靠的要求,数据中心企业大规模布局一线城市。中国数据中心大平 台数据显示,我国数据中心主要分为三个层级:一是北上广三地需求集 中区,数据中心约占全国份额的 26%,该层级主要特征为算力需求集 中,能源与资源条件较为紧张;二是环一线城市数据中心产业带,即环 一线的二三线城市数据中心,该层级的主要特征是能源价格和 IDC 建 设运营成本相对一线城市较低;三是西部算力支撑保障区,该层级的主 要特征是土地、能源、气候等条件良好,异地算力支撑能力较强。

算力方面,近年来,我国智算产业随着算力产业的发展快速增长, 政府鼓励企业进行智算中心技术研发与服务能力的提升,智算中心应用 与产业化成果显著。2024 年政府工作报告中明确提出:适度超前建设 数字基础设施,加快形成全国一体化算力体系,培育算力产业生态。如 下图所示,截至 2023 年底,全球算力总规模约达 910EFLOPS,同比增 长 40%;智能算力规模达 335EFLOPS,同比增长幅度达到了 136%,其 增速远远超越了算力整体规模的增速。通过“东数西算”等工程的实施, 可满足社会对智能算力的基本需求,而传统承载的通用算力的增长趋势 逐渐放缓,存量通用算力向智能算力升级将成为传统数据中心未来面临 的任务。

能源利用与碳排放方面,目前数据中心的能耗问题阻碍了其自身 的发展与节能社会的构建,尤其是在北上广深等一线城市,面临着数据 需求旺盛和能耗“双控”要求严格的矛盾,新建数据中心指标越发难以获 取。据不完全统计,全国数据中心总规模已超过 650 万架(折合标准机 柜/2.5kW),近 5 年年均增速超过 30%。根据国家能源局、国家统计局、工信部统计数据显示并测算,至 2030 年全国数据中心用电量、碳排放 量与 PUE 测算值如下图所示,全国数据中心以 2025 年为界,2025 年 之前平均 PUE 为 1.4,2025 年开始,平均 PUE 将降至 1.3 以下。此外, 到 2030 年,中国数据中心用电量将达 1500 亿度,降低绝对能耗和碳 排放将成为数据中心智算化演进的重要组成部分。

随着人工智能对数据中心智算能力的要求不断提升,传统数据中 心也在诸多方面迎来挑战。(1)机柜功耗高密度挑战。为满足大量智算业务需求,通常需要建立高度集中化的 GPU 集群, 而 GPU 芯片的算力在不断提升,其功耗和散热量也在不断攀升,数据中心单机柜的热密度大幅度的快速提升,因此,面对日益增长的智算化 需求,数据中心将面临单机柜功耗高密化的挑战。 通常人工智能(AI)服务器由多卡 GPU 或 NPU 模组构成,每台服 务器的功耗在 5kW~10kW。单机柜功耗从传统数据中心的 4~6kW 的 逐渐增加至 20~40kW,未来逐步发展至 40~120kW 甚至还要更高, 智算中心机柜呈现高密度化趋势。这将导致在 IT 负载和市电引入规模 上产生巨大提升,也意味着将消耗更多的能源,同时也对资源产生众多 新的挑战,在建于其他建筑内的附属类机房和城市中心区的数据中心则 更为明显。

(2)负载动态冲击挑战。传统数据中心上线运行以后,负载相对比较平稳,很少有极端情 况负载波峰或谷底出现,而智算业务的负载运行特点是不断进行训练 任务来进行高速运算,当开始训练任务时,负载将会迅速上升到比较 高的功耗值,甚至会达到负载的极限值,而等到这次训练任务结束以 后,它的负载又会迅速下降,降到最低值。因此,智算业务的负载波 动情况非常大,呈现出新的动态负载特性,其主要表现为周期性、大 幅度、并发性、瞬时冲击等,这种特性对于智算中心的配电和制冷都 是一个很大的挑战。 周期性:智算负载呈现周期性波动,波动频率从分钟级到小时级不 等。 大幅度:智算负载功耗波动幅度可能超过额定功耗的 80%,即智算 中心的负载功耗可能从 10%快速突变至 80%,甚至爆发性增长至 100%。并发性:人工智能(AI)大模型具有并发运算的特点,故整体集群 性总功耗呈现出动态快速变化。 瞬时冲击:某些算力模型可能出现 400μs~50ms 左右的负载冲击, 幅度可能达到额定负载功耗的 150%,它取决于 POD 运算模型及软件 算法。

(3)低碳高效挑战。由于算力需求导致单机柜功耗的大幅提升,必将带来能源与资源 更多的消耗,传统数据中心向智算中心演化的进程中,如何实现算力 与算效双提升、性能与绿色双目标将成为数据中心高质量发展的关键 环节。 在数据中心向智算中心演化的过程中,为满足低碳高效发展,可 能涉及周边环境与资源的评估、建筑的合理布局、结构设计、电气链 路架构设计、制冷系统设计、新能源/储能系统应用评估以及智能化能 源与资源管理等诸多环节,而每一环节都是对传统数据中心的挑战。 对于城市周边的独立数据中心和异地算力支撑的园区级数据中心在实 现智算化能力的同时,保证合理利用资源、实现低碳高效发展将成为 其新的挑战。

(4)投资与运维成本挑战。数据中心算力化改造涉及的成本可划分为两大类:资本支出 (Capital Expenditure, CapEx)和运营支出(Operational Expenditure, OpEx)。资本支出主要关乎数据中心物理基础设施的升级,如服务器、 存储设备和网络硬件,这些通常需要一次性较大投入,但能为长期运营提供实物资产和性能保障。硬件升级过程中,需细致评估性能与成本的 平衡点,尤其在处理器、内存和存储介质等关键组件选型上,控制预算 内最优配置。当前固态存储(SSD)价格下降和多核处理器性能增强, 使得性价比得以改善。然而,随着硬件性能向上跳跃,系统复杂度增加, 导致了维护和替换成本的提升。高密度硬件布局和专业维护为数据中心 稳定性提供保障,但也带来了高昂的前期投资成本。 运营支出则更侧重于数据中心的日常运维成本和服务成本,涉及电 力、冷却、安全、人力和系统软件维护等环节。电力消耗是运营支出中 最大的开支之一,故采用高效的能源管理系统、实行能效优化措施,如 使用节能的处理器、部署虚拟化技术降低物理服务器数量,成为降低电 力成本的有效手段。另外,数据中心在追求高可用性的过程中,必须确 保充足的备件供应链和快速响应的技术支持团队,以此保障服务质量和 业务连续性,但这也会增加人力和管理成本。随着算力需求的增长,数 据中心需要定期进行软件升级和系统优化,以提高系统的稳定性与安全 性,这些维护工作虽然可以规避未来更大的损失和故障,却同样增加了 短期内的运营压力。

在算力化改造中,固定成本投资对于长期性能提升至关重要,但同 时硬件的快速迭代与技术升级要求数据中心持续关注市场动态,以避免 投资过时的技术。此外,维护成本在运营中的占比不断上升,因为数据 中心需要频繁地更新系统补丁、应对安全威胁以及处理设备故障。增长 的数据量、复杂的云服务和多变的业务需求,也推高了数据中心对于专 业技术人员的依赖,从而加剧了人才成本。为了控制成本,数据中心运营商应用诸如容量规划、性能管理及自动化运维工具等技术手段。容量 规划能够帮助数据中心评估未来的资源需求,从而合理配置硬件设施, 避免资源闲置和过度投资。性能管理工具允许管理员监控系统的实时运 行状态,优化资源分配,提升能效比。

参考报告

数据中心智算化升级改造白皮书(2024 年).pdf

数据中心智算化升级改造白皮书(2024年)。在人工智能高速发展的浪潮中,数据中心作为信息时代的基石,已成为推动经济社会发展、提升国家竞争力的关键一环。在政策层面,为了迎合智算产业的发展,在规划智算中心建设的同时,也积极推动传统数据中心向智算中心的演进。通过业务层级改造,使数据中心业务由提供通用算力向提供智能算力升级。同时,通过基础设施层级提质增效,使数据中心向智能化、高效化、绿色化方向转型升级。目前,数据中心正从提供基础计算资源向提供智能化、一体化的AI算力服务方向快速演进。北京电子数智科技有限责任公司(简称“北电数智”)通过打造具备算力、算法、数据全栈AI能力的&ld...

查看详情
相关报告
我来回答