以下是关于2024数据中心能源十大趋势的介绍,如果有兴趣了解更多相关的内容,请下载原报告阅读。
1.趋势一:产品安全
安全可靠始终是数据中心最本质需求 数据中心基础设施作为数字底座,是海量数据承载的物理基础,是信息集中处理、计算、存储、传输、交换、管理的核心资源基地,也是 当今社会经济正常运转的关键保障,因此安全性是数据中心的生命。而数据中心中基础设施的可靠性、安全性一直是较薄弱的环节,完善 的端到端保障机制,是数据中心生命周期内安全稳定运行最牢靠的基座。
高可靠产品+专业化服务是保障数据中心安全可靠运行的关键 每一个数据中心的组成背后都有着数以千万计不同部件,在如此众多的零部件组成下,为了确保数据中心具备高可靠性高安全性,需要从 产品本源安全可靠出发到专业化团队设计运维,构建端到端全链保障机制,才能确保数据中心安全可靠。 高可靠产品包含产品设计可靠和产品生产可靠两部分: 产品设计可靠:产品的设计理念关系到产品本身的安全,良好的设计可以避免事故的发生,或者减少事故造成的影响。以锂电池产品为例, 在设计阶段,电芯的选型、模组的组合、pack的连接以及电池系统之间的并机,都关系到电池运行的安全性和失效率。如电芯的选型, 高可靠的磷酸铁锂电芯可以大幅降低电池热失控后的起火风险,以提升数据中心备电系统的安全等级。 产品生产可靠:设计阶段决定了产品的“基因”,而很多产品的部件数量多,设计精密,生产过程对产品的优劣起到关键作用。在生产 中,尽可能减少不确定性影响(如人工介入),构建鉴权的质量控制体系和标准化生产流程,可以确保产品的一致性和可靠性。如在制 造阶段,引入自动化标准产线,大大降低产品生产一致性差等问题,同时配合数字化AI技术与显性化技术,自动监测设备的特征参数, 从而进一步识别生产过程中潜在的风险因素,如焊接不良、螺栓松动、电芯析锂、绝缘破损、漏液、虚焊漏焊等,从生产制造源头保障 产品的安全可靠。 专业化服务包含专业化部署和专业化运维两部分: 专业化部署:数据中心建设属于专业领域,包括强电安装、弱电调试、制冷系统部署和弱电监控等界面,工作的专业性和规范性对于安装 质量至关重要。如配电设备安装中的力矩、电阻测量,电池安装中的规范影响,制冷系统中管路焊接和保压、冷媒冲注等工作,需要细致 的工艺和水平保障质量。同时对于规范性,需要遵从相应技术标准,避免因部署不规范导致的安全隐患。 专业化运维:可靠的产品和部署是构建高质量数据中心的基础,专业化的运维将是数据中心可靠运行的护盾。良好的运维工作应具备完善 的运维流程、专业的运维技能和事故应急预案,可以在设备运行时发现异常,及时处理,在紧急情况下迅速响应,降低影响。做到数据中 心长治久安。 只有严格遵守端到端保障机制的产品,才能使数以千万零部件产品组成的数据中心安全、稳定、可靠、持久的运行。
2.趋势二:架构安全
集中式制冷存在单点故障风险 当前,多数大型数据中心采用集中式冷冻站供冷系统,该系统由冷水机组、冷却塔、蓄冷罐、温控末端、冷却水泵、板式换热器和管理 系统等七个子系统组成,涉及几十种设备,这些设备通过数百至数千米的水管连接,水管上的转接头和阀门众多。因此,该系统存在故 障点多、故障域大的问题,一旦发生单点故障,可能导致数据中心多个机房或多栋楼出现大规模宕机,给数据中心的业务稳定性带来极 大的挑战。 近年来,香港、新加坡、广州等地的多家头部数据中心厂商因集中式冷冻水系统故障而引发长达10小时以上的宕机,造成一级安全事故, 受到工信部的约谈,同时导致多家网站和APP无法正常运行,造成巨大的经济损失。例如,2022年12月,香港某大型数据中心的冷却管 路漏水进气,导致冷水机组全面停止运行,机房温度升高引发次生消防事故,服务器停机超过15小时,多家网站和APP无法正常运行, 多个知名品牌的业务受到严重影响,造成的经济损失无法估计。另一个例子是,位于中国华南地区的某数据中心,其冷却水系统因母管缺 水进气而形成气阻,导致整个冷却系统失效,全楼的制冷系统中断。2023年,新加坡某大型数据中心服务商,由于冷水机组软件升级优 化不当,导致制冷系统无法启动,无法为服务器提供冷却,诸多服务器因超温而宕机,服务中断,其数据中心中运行的某头部银行的在线 业务长时间无法使用。
分布式制冷架构各子系统相对独立,可靠性更高 分布式制冷系统架构灵活,子系统相互独立互不影响,单台设备的故障不会影响到其他设备,在保障温控安全方面具备更大优势。 分布式制冷架构一般针对单个Datahall配置冷源,并按业务重要程度设置架构冗余,若单台设备故障仅对单个子系统产生影响,不影响整 体机房业务正常运行,对重要业务的保障能力更强,且不会对其它部分机房业务造成任何影响,从架构设计上大幅提升了数据中心的可靠 性,是智算时代更优的选择。 同时,分布式制冷系统更容易实现工厂预制,可减少现场工程量,减小施工质量问题带来的隐患。此外,分布式制冷系统的一大特点是运 维简单,以间接蒸发冷却为例:相对于冷冻水机组,一般的间接蒸发冷却空调机组结构非常简单,仅由一台主设备和数个附属设备组成, 系统连接点少,管路相比冷冻水系统也仅需1/10左右,应急处理时出错的概率低,运维难度也大大降低,可以最大程度保障数据中心的供 冷有效性和供冷稳定性。 随着数据中心规模越来越大,集中式制冷的弊端也越来越大,分布式制冷系统凭借架构灵活,可靠性高的优势将越来越广泛地应用到新建 数据中心,逐渐取代集中式制冷方案成为主流。广泛的市场需求也推动了行业技术的不断突破和进步,多个主流厂商均开始大力推广分布 式制冷架构,其中最具代表性的就是间接蒸发冷却方案,当前间接蒸发冷却方案支撑的机架规模已超过30万,并在众多气候条件迥异的地 区都得到了落地验证。相信随着以间接蒸发冷却和分布式制冷架构为代表的新型节能技术的进一步普及和推广,数据中心产业将迎来一个 低碳节能和安全可靠兼顾发展的新时代。
3.趋势三:主动安全
数据中心功率密度的升高,使故障应急处理时间大幅缩短 主动安全 随着数据中心功率密度的提升,故障应急处理的时间也大幅缩短,对于数据中心维护提 出了更高的挑战。得益于人工智能技术技术的发展,使用AI技术进行风险预测和管理数 据中心基础设施成为可能。AI算法可以从历史和实时数据中学习,预测和识别异常模式, 从而使数据中心的安全管理从被动的救火模式转变为主动的防火模式,从运维手段上提 升数据中心的可靠性。 06 随着智能计算技术的发展,数据中心的单机柜功率将从6-8千瓦增至30-40千瓦,极大地提升了数据处理的能力。这一飞跃不仅优化了运 算效率,还推动了数据中心供电/制冷技术的革新,因为高密化需要更大的供电功率,更高能量密度的备电电池,以及更高效的散热方式。 但这也带来了更大故障域的风险,比如锂电池以其高能量密度和长寿命在数据中心能量存储领域占据了一席之地,但它们也存在过热风险, 特别是在过充、内部缺陷、使用不当等异常场景下,公开研究资料显示,单体磷酸铁锂电池从热失控触发温度T2(150~250 ℃)到最高 温度T3(一般不超过500℃)之间,时间仅需要30~60s。 在IT设备功率密集的环境下,冷却系统的故障可能迅速放大,导致机柜过热。在故障发生时,考虑到IT设备的单位时间发热量是传统计算 机的4到5倍,散热压力大幅增加。另外对于故障的应急处置,传统的数据中心可能会采用直通风、干冰风扇等临时措施。然而,在液冷高 密场景,这些传统方法可能不再适用。通常情况下,对于一个30千瓦的机柜,如果采用板式液冷加直通风的散热方案,在二次管路出现故 障时,可供反应的应急时间可能仅有30秒至1分钟。 变配电系统中的电气连接触点随着设备运行时间增加,在施工质量、潮湿和灰尘腐蚀、震动应力共同影响下,产生接触面腐蚀或松动,最 终导致触点温度异常,这类问题在低负载时不易察觉,但在负载增加时可能瞬时突然爆发,对数据中心的电力安全构成严重威胁。 在以上这些情况下,完全依赖人工进行应急处理就会非常被动。因此,迫切需要开发出预测性维护技术,以便能够提前发现潜在的故障并 及时介入处理。
预测性维护可帮助数据中心实现故障主动预防 在数据中心中,预测性维护是一种利用大数据和人工智能 (AI) 算法,对设备的运行状态进行实时监测和分析,从而提前预测和诊断故障 的策略。 例如,基于大数据和云计算等技术,积累了长期大规模锂电池数据,能够捕捉安全隐患的变化情况,实现安全特性和质量缺陷发展特征的 建模和识别,通过监测锂电池的温度、电压、电流等参数,可以预测出电池的健康状态和剩余寿命,及时进行充放电管理和更换,防止电 池过热或过放引发的安全事故。 在高密液冷场景下,通过监测液冷管路的流量、压力等参数,通过参数异常预警提醒运维人员及时进行异常排查与整改,可防止漏液情况 发生而引起的机房高温。 在变配电系统中,通过温升模型结合定时采集的铜排触点电流、环境温度、相邻触点温度信息推理得到当前负载下的合理温度,当触点实 测温度超过合理温度时,说明该接触点存在温度异常的问题。通过过温预警提醒运维人员及时进行整改,可防止高温起火导致的电力中断。 通过这些措施,可以使数据中心的安全管理从被动的救火模式转变为主动的防火模式,大幅缩短故障的应急处理时间,提升数据中心的可 靠性。
4.趋势四:网络安全
网络安全成为数据中心基础设施的薄弱环节 随着数字化及人工智能的快速发展,数据中心基础设施作为数字底座,承载着海量的信息处理、计算、存储、交换和管理的重任,其建设 和发展,对一个国家的经济、社会和安全等方面都具有重要的影响,是各行各业的重要组成部分。通过建设和发展数据中心关键基础设施, 可以保障国家安全,促进国家的繁荣发展。 但,放眼未来,相互连接的设备将成指数级增长,这些设备中来自于不同的供应链,其使用的技术由很多ICT供应商提供。这样一个复杂 的、相互交织的生态系统使得那些想要把技术用于从未预料之处的人有可能去偷窃、篡改、破坏技术与基础设施。当黑客无法通过数字方 式侵入服务器或应用程序时,他们可能会破坏供电系统、制冷系统和其他关键基础设施,以破坏数据中心的运行。例如,通过访问监控系 统或入侵内网操控数据中心的冷却系统,导致服务器过热并遭受损坏,或者破坏备份过程或上传恶意备份文件,甚至关闭数据中心的UPS 等。这将会给数据中心带来不可预见的风险。 因此安全性是数据中心的根基,而数据中心基础设施的网络安全一直都是比较薄弱的环节。
成熟的ICT网络安全技术可复用到数据中心基础设施 构建从软件选型、设计、开发、验证、发布的端到端控制流程,做到软件信息可展示、软件开发可评估、供应商可信任、风险监控可持续 的软件供应链安全,是网络安全的基石。基于内生安全设计理念,借鉴行业最佳实践,通过访问控制、完整性保护、最小系统、数据安全 等打造产品解决方案纵深防御架构。在数据中心运维运营过程中,配置项的误配/漏配,是导致被攻击利用的重要因素,漏洞利用是网络 攻击的主要手段,需要具备对恶意攻击流量的实时感知能力,针对网络攻击的快速识别能力及针对性的响应速度,是保障关基等重要网络 资产安全的根本所在。因此,建立态势感知、安全配置、证书管理、漏洞管理能力及完善的组织和快速响应流程以确保运维安全可视可控, 大大降低网络安全风险。 未来,软件供应链安全、产品纵深防御解决方案、运维运营安全将共同组成数据中心全生命周期的网络安全防护体系。
5.趋势五:部署极简
部署极简成为互联网新兴市场DC交付的迫切需求 近年来,中国互联网产业已经进入了相对成熟的发展阶段,产业规模增速放缓,拓展海外市场以寻找新的增长机会已经成为了中国互联网 产业的重要共识。同时,伴随国家出台了针对互联网企业的出海相关扶持政策和机制,业务出海已成为中国互联网企业发展的战略选择。 对于互联网企业而言,云计算是最重要的基础设施之一,在业务出海的过程中,采用云计算能为企业提供更加灵活的业务部署能力,云计 算数据中心能否快速部署影响到企业能否夺取业务发展先机。 但是,在互联网产业潜力巨大、增长较快的新兴市场,诸如中东北非拉美东南亚等地区,大规模数据中心产业起步晚,数据中心基础设施 欠完善。产业规模小,工程能力弱,施工水平低,传统数据中心短期无法规模增长;产业从业人员少,经验参差不齐,供不应求,已成为 数据中心建设发展的瓶颈;传统建设模式多厂家分包多产品拼凑的特点,使得数据中心建设质量难以得到保障。部署极简成为互联网产业 新兴市场数据中心交付的迫切需求。
工程预制化,实现DC极简快速建设 随着产品模块化及预制化技术的成熟,工程预制化将实现数据中心的极简快速建设。通过把DC站点建设现场大部分复杂的土建工程和机 电安装工程在工厂预制的思路,将关键温控设备、供配电设备或者数据中心整体通过模块化设计,在工厂进行模块预安装集成,现场模块 乐高式拼装,实现DC的快速组建。工程预制化一方面可以降低对站点所在地区工程建设能力的要求,另一方面并行的施工工序可以大大 缩短DC整体交付时间。 提供匹配的预制化方案将成为数据中心建设的新常态。根据Omdia最近的一项调查,99%的企业数据中心运营商表示预制模块化的数据 中心产品设计将是他们未来数据中心战略的一部分。以200柜规模数据中心为例,传统建设方式需要约24个月,预制模块化建设方式需要 10个月左右,TTM缩短50%。以电力模块为例,采用预制化和全模块化设计,核心部件工厂预安装、预调试,现场交付时间从2个月缩 短至2周,满足业务快速上线需求。
6.趋势六:运维极简
云数据中心复杂度激增,大大增加了维护的复杂度 伴随着服务器功率密度的逐步增加,数据中心基础设施设备也逐步集成化,功能特性也越来越智能化,对运维人员的技能提出了更高的要 求。同时数据中心的规模也逐步从千柜规模演进到万柜规模,相对应的整体运维复杂度也随之激增。在这样的背景下,数据中心管理者和 运维团队面临着前所未有的挑战,数据中心基础设施的运维架构需要在不断变化的环境中保持灵活和敏捷,以适应未来更高性能和更高功 率密度的智能算力需求。
专业化管理平台,能够更好地诊断和解决设备问题,让运维更安全更可靠 随着云计算技术的发展,越来越多的数据中心设备厂家通过云端构建的专业化管理平台,来辅助数据中心日常的管理和运维,以增强厂家 设备的服务能力和增值特性,进一步帮助客户提升运维效率及设备可靠性。相比于传统的本地管理系统,专业化管理平台可通过云服务的 方式提供了运维服务,利用AI、大数据、IOT等技术,借助原厂对设备结构、工作原理、维护方法等深入的理解,帮助企业进行设备故障 自动诊断,AI预测性维护,识别潜在隐患,更好地诊断和解决设备问题。能更专业、高效的指导企业进行设备的维护保养,以延长设备的 使用寿命。
7.趋势七:未来演进
智能算力的快速爆发,将为数据中心带来极大不确定性 数据中心作为信息时代的基础设施,其算力需求随着业务发展不断变化,因此基础设施也需要不断演进。尽管当前智能算力在数据中心总 算力中的占比较低,然而,我们正处于通用算力向智能算力的过渡期。随着生成式人工智能技术的迅猛发展,智能算力需求将呈现出爆发 式增长,年复合增长率高达80%,远远超出数据中心平均算力增长水平。这为数据中心带来了巨大的机遇,同时也大大增加了数据中心 业务需求的不确定性。 当前主流的数据中心中,通常采用通用服务器,其单柜的功率密度一般不超过15kW/柜,使用风冷型制冷设备即可满足稳定运行的要求。 相比之下,智能算力需要庞大的推演算法,其内置的智能计算芯片导致其功率密度普遍较高(≥30kW/柜),往往需要采用液冷方式进行 冷却。在数据中心建设初期,用户往往难以准确预测通用算力和智能算力的未来占比和发展趋势。因此,在建设时,需要根据现有算力需 求进行设计,并考虑解决方案能够支持未来智能算力增长的需求。因此,迫切需要支持未来演进的数据中心架构。
风液融合将成为业务需求不确定场景下的优选架构 伴随着智能算力的需求引入,同一个数据中心会同时存在中低功率密度(≤15kW/柜)和高功率密度(≥30kW/柜)的场景,这对制冷系 统的规划建设带来了极大的挑战。用户需要在能满足当期业务需求的基础上,同时满足未来业务发展趋势的演进。 在这种背景下,风液融合架构将成为可以匹配未来演进的数据中心优选架构。其核心思想是,利用风冷和液冷的不同特点,实现数据中心 的制冷量动态分配。在冷源侧,通过一套系统提供风冷和液冷两种方案,通过风道和管道设计,将风冷和液冷分别应用于不同的服务器, 根据服务器的功率密度和业务特点,选择合适的制冷方式。 风液融合的关键是,实现风冷和液冷的比例可调,即在数据中心的总冷量固定的约束下,根据实际的需求,动态调整风冷和液冷的分配, 以达到最优的制冷效果。例如,当数据中心的智能计算需求增加时,可以减少风冷的比例,增加液冷的比例,反之亦然。
8.趋势八:制冷高效
智算高密场景存在,主流的依然是通用计算中低密场景: AI技术的快速发展推动了智能数据中心的迅猛增长,而数据中心的功率密度需求也随之逐渐提升。尽管高密度数据中心的场景正在逐步增 多,但从建设总量和增长趋势来看,短期内云数据中心仍将保持主导地位。预计未来三年内,新建数据中心中超过90%仍将是传统的中 低密度云数据中心,单柜功率密度不超过15千瓦,整体制冷方案仍以风冷方案为主。这一发展趋势表明,虽然高密度数据中心正在崛起, 但传统云数据中心仍然占据着主导地位,且在短期内不会发生根本性的改变。
AHU一次换热,最大化利用自然冷源,实现低PUE且经济性最优 针对非智算数据中心,间接蒸发冷却方案在当前的数据中心行业中拥有比较明显的优势来满足需求。 从架构层面来说,间接蒸发冷却方案采用分布式制冷架构,相比集中式架构的冷冻水系统,能够有效降低单点故障引发系统故障的风险, 有效提升机房的运行可靠性。 从换热效率来说,间接蒸发冷却方案通过一次换热的换热芯体设计,能够最大程度地利用自然冷源,相比传统冷冻水系统的四次换热,具 有明显的节电和节水优势。特别是在低温情况下,绝大部分时间可以依靠自然冷源,无需机械辅助制冷,这在PUE和WUE指标上都有显 著的优势。 从交付和维护来说,间接蒸发冷却方案属于工程产品化方案,能够最大程度地采用工厂预制,不仅减少了现场施工工程量,缩短工程交付 时间,也能更好的进行质量保障。而且由于其结构的简化,维护的复杂度也大大降低,为后续的日常维护降低成本。 经过5年以上的市场验证,间接蒸发冷却方案在设计、施工和运维方面已经非常成熟。整体综合成本约为传统冷冻水系统的0.8倍,商业逻 辑更为优越。基于整体数据中心行业的发展趋势,预计未来3年内,间接蒸发冷却仍然是经济性最优的低PUE制冷方案。
9.趋势九:系统高效
部件高效接近瓶颈,微小改进的时间和成本远赶不上算力时代需求 随着以ChatGDP为代表的大模型开发和应用取得巨大进展,算力需求尤其是智能算力需求出现大幅提升。根据信通院发布的《2023智能 算力发展白皮书》显示,2022年全球智能算力增速为25.7%,中国增速高达41.4%。预计未来五年全球算力规模将以超过50%的速度增 长。数据中心的本质是把电力转换为算力。一方面,算力的激增带来能耗的激增,另一方面,面临双碳目标,数据中心绿色低碳发展的要 求不断加码,PUE监管越发严苛。温控和供电系统占据数据中心能耗的40%以上。传统方式,数据中心主要通过高效设备选型,提升部 件的效率来降低PUE,如高效冷机、高效空调、高效UPS等。 经过多年发展,UPS双变换效率高达97%,冷机COP超过8。冷冻水空 调COP接近4,单部件的效率已经接近极限,行业厂家普遍进入微创新阶段,部件效率的微小提升,往往需要大量的研发投入和时间积累 才能实现,要付出的商务和时间成本远超过算力中心的投资收益。因此。数据中心节能效提升,需要转变思路,用新的方式挖潜PUE。
PUE挖潜,需要系统审视现实条件和各部件技术水平 数据中心涉及IT、温控、供电、网络等多个子系统,本身就是一个系统工程。影响数据中心能效水平的因素众多,如技术架构、设备选型、 运行策略、运行环境、IT工作环境、自然条件,且各因素间相互影响, PUE挖潜,需要用系统工程思维来综合审视,实现系统现实条件 和部件技术水平的最优权衡。从部件效率转为关注链路效率,改变运行方式,提升系统效率。比如2N供电系统,采用一路市电+一路智能 在线(S-ECO)模式,保障可靠性的同时,提升供电系统效率。从关注部件效率到关注运行环境,在服务器允许的范围内,提升送风温 度,加大送回风温差,既可以减少机械制冷的使用量,提升自然冷源比例,降低温控系统能耗。同时,更宽的温度运行范围,有助于提升 IT服务器部署密度和运行负载率,在同等能耗情况下实现算力最优,同时,可以采用人工智能调优技术,各系统间的最优运行配置,实现 算力和能耗的综合权衡,从能效(PUE)最优到算效(PFPUE)最优。
10.趋势十:调优高效
数据中心是耗电大户,减排迫在眉睫 数据中心在实现信息化和数字化进程中扮演着至关重要的角色,并在云计算、5G、人工智能等领域发挥着关键作用。据2022年全年数据 显示,全国数据中心的耗电量已经达到了惊人的2700亿千瓦时,占全社会用电量的约3%,较2021年的2166亿千瓦时增长了25%。随着 互联网数字化进程的加速推进,预计到2025年,全国数据中心用电量占全社会用电量的比重将提升至5%。而到2030年,全国数据中心 的耗电量预计将接近4000亿千瓦时,因此,数据中心的减排问题显得迫在眉睫。
双碳政策,PUE监管趋严,传统改造困难大 截至2022年底,全国数据中心存量达到650万架,其中PUE超过1.5的占比超过50%,即有超过300万架的数据中心PUE超过1.5。自 2021年以来,大型和超大型数据中心的新建项目就开始受到约束:PUE不高于1.3。2022年“东数西算”一体化大数据中心建设,也明 确要求集群内的数据中心PUE在东部地区要低于1.25,在西部地区要低于1.2,先进示范工程更是将PUE要求降低到1.15。同年,国家强 制标准GB40879《数据中心能效限定值及能效等级》正式发布,这标志着未来的监督管理将以强制标准为依据,PUE监管将变得更加严 格。除了发布数据中心能效指导性政策外,一些能耗重点省份的发改委、工信局等部门还制定了更多惩罚性细则,例如差别电价、不达标 则退、在线能耗监测等。PUE不达标的数据中心不仅面临高额电费,还可能面临关闭整顿的风险。 针对传统数据中心的节能改造,主要涉及增删改现有老旧设备,例如将定频设备改为变频设备,将低效率设备替换为高效率设备,以及增 加流量计和切割管道等操作。这些改造需要停止数据中心的业务运行,对实际业务产生较大影响和损失。为达成改造目标,最重要的就是 在温控领域发力,业界往往会采用更换更优制冷设备,例如行级空调近端制冷、间接蒸发冷却、高温冷冻水风墙、氟泵空调等。