数据中心智算化改造预评估是确保改造项目顺利实施并达到预期 效果的重要环节。预评估主要针对数据中心现有资源的评估、改造需求 与业务评估、技术可行性评估、成本效益分析和相应风险应对策略等。
1.预评估与分析
1.1 现有资源评估
现有资源评估是对数据中心整体概况的了解,也是智算化改造的基 础。智算化升级改造需尽可能利用现有资源实现改造目的,主要包括以 下方面: 外部资源:对周边环境、能源、交通等条件进行评估,同时需结合 当地规划、地区定位、周边城市资源进行深入调研,特别是电力容量等 支撑智算中心基础业务的相关资源条件。 硬件资源:评估现有服务器的数量、型号、性能以及存储、网络等 基础设施的配置情况。 软件资源:分析当前操作系统、数据库、中间件等软件的版本、兼 容性以及是否需要升级或替换。 数据资源:评估数据的规模、类型、存储方式以及数据备份和恢复 策略。
1.2 需求与业务分析
需求与业务分析既是对现有业务能力的充分梳理,也是对未来业务 需求的总体把控。通过需求与业务分析,明晰业务层级的改造目标,主 要涉及以下内容: 行业应用需求:结合智算中心未来业务开展行业应用需求分析,明 晰未来可能发展的业务场景,如智能制造、金融科技、医疗卫生等,通 过开展行业应用需求分析,评估应用前景。 业务需求:明确现有数据中心业务类型和未来数据中心需要支持的 业务类型、规模以及未来的增长趋势。 算力需求:根据业务需求,分析所需的算力类型和规模。评估智算 化改造可能涉及的软硬件条件。 性能要求:确定数据中心在响应时间、吞吐量、稳定性等方面的性 能要求。
1.3 技术可行性评估
技术可行性评估是根据现有资源条件和改造目标,提出可行的技术 方案概况,并充分评估方案的优势与风险等,主要包括以下方面: 技术方案:研究并选择适合数据中心智算化改造的技术方案,包括 硬件升级、软件优化、算法改进等。重点对建筑空间、结构安全性、供 配电架构、环境保障系统、硬件设备运行能力等开展评估。梳理数据中 心冷负荷需求,利用负荷模拟软件高精度仿真,开展逐时冷负荷精准模拟分析;对开源设备进行能耗仿真,梳理设备运行状况和性能,分析利 旧可行性;建立项目能耗仿真模型计算,评估节能空间。 此外,结合行业内现有基础设施评价技术体系,如关注于数据中心 质量与性能的“数据中心场地基础设施认证”、“信息系统机房动力及环 境系统认证”,关注于数据中心基础设施运行维护的“数据中心场地基 础设施运行与维护评价认证”等,进行综合评估。 技术兼容性:评估新技术与现有系统的兼容性,确保改造过程中不 会出现技术冲突或兼容性问题。重点针对基础设施各子系统软件及其协 同工作性能进行评估。 技术风险:识别并分析可能存在的技术风险,如技术成熟度不足、 实施难度大等,并制定相应的应对措施。
1.4 成本与效益分析
成本与效益分析是对改造技术方案的经济性评估,旨在以最小的成 本投入实现智算化升级的目标,取得最大的收益,通常包括以下几个部 分: 投资成本:估算数据中心智算化改造所需的投资成本,包括硬件购 置、软件授权、人力成本等。 运营成本:分析改造后数据中心的运营成本变化,如能耗、维护费 用等。 预期效益:评估改造项目带来的预期效益,包括算力提升、资源利 用率提高、成本降低等。
投资回报率:计算投资回报率(ROI),评估项目的经济可行性。
1.5 风险评估与应对策略
风险评估与应对策略是在改造工程启动之前,深入挖掘技术方案、 工程实施可能遇到的风险,并制定应对策略,以充分的前期工作推动后 期改造工程的顺利实施,包括如下内容: 市场风险:分析市场需求变化、竞争加剧等可能带来的市场风险。 技术风险:再次审视技术风险,确保已制定有效的应对策略。 管理风险:评估项目管理、人员培训等方面的风险,确保改造项目 能够顺利实施。 法律与合规风险:确保改造项目符合相关法律法规和行业标准的要 求。 综合以上评估结果,对数据中心智算化改造项目的可行性进行总体 评价,并做出是否实施改造的决策。
2.技术策略与方案
通过对数据中心现状的调研,以及满足智算业务对基础设施的要求, 为了能使存量数据中心顺利完成智算化提质升级,需要优化数据中心现 有空间布局、提升支撑业务的基础设施保障能力,同时引入 AI 对效能、 管理等方面赋能,形成兼顾经济性、承载力、兼容性、可持续性的综合 改造方案。
2.1 空间优化
空间供需优化
考虑智算中心业务要求,单机柜功率密度将有较大提升,由此带来 电气系统架构发生变化,动力辅助用房区与主机房区面积占比发生改变, 动力辅助用房区的空间需求增大。 由于总冷负荷需求的提升,制冷系统进行升级改造,会对空间利用 产生较大影响,在改造过程中应根据空间供需要求开展实施,同时考虑 空间调整后对消防等其他系统的连带影响。
荷载能力升级
数据中心智算化改造以满足算力业务为前提,高功率密度机柜和液 冷机柜的应用不仅给数据中心机房、电池间、动力配电间等空间布局带 来变化,单位面积结构荷载也随之增加,其楼板可能涉及加固等措施,且需适当预留部分楼层或白空间满足结构楼板均布活荷载,以满足未来 发展需要。
2.2 保障提升
系统支撑
为满足智算业务,智算中心的单机柜功耗可达至百千瓦级,且功耗 在(10~130)kW 之间都有分布。因此,需针对负载与功耗特征进行电 气和制冷系统等动力和环境保障能力的优化。
动力保障
对于智算中心弹性较大的机柜功耗,采用单一的末端配电架构可能 无法适配,需要采用融合的末端配电方式。如,采用“智能母线”的方式 替代原有“传统列头柜+电缆敷设”的方式,以响应智算中心“需求多样性” 的要求。此外,可考虑采用三相 PDU 提供更高的功率,以支持机柜高 功率密度的特征。具体策略可参考如下: (1)单机柜功耗<12kW:可采用列头柜+电缆+单相 PDU 电源的 配电方式可满足需求; (2)单机柜功耗(12~40)kW:可采用列头柜+电缆/智能母线+ 三相 PDU 电源的配电方式适配此功耗段的机柜; (3)单机柜功耗(120~140)kW:可采用智能母线+铜排+定制化 配电模块的方案。
环境保障
针对机柜功耗增大带来的冷负荷增长的问题,围绕“充分利用自然 冷源,合理优化既有风冷系统,液冷系统替换风冷系统”的升级改造原 则,需要根据机柜功耗和冷却形式进行适配,并考虑空间布局综合提升 制冷系统能力,满足智算化改造后数据中心冷负荷需求,可参考以下形 式。
(1)风冷形式。对于低功率密度(单机柜<10kW)项目,多为传统低功耗段服务 器,对于空调形式无特殊限制,但需结合具体空间形式进行适配。 对于中功率密度(10kW<单机柜<25kW)项目,可按如下策略进 行选择:“房间空调”通常可解决(10~20)kW 单机柜功率密度散热, 但需结合风量与管道优化等方式实现更好的制冷效果;“风冷列间空调” 通常可在(10~15)kW 单机柜功率密度时保持良好的制冷效果;“近端 风墙”的常规方案也可解决(10~25)kW 单机柜功率密度散热。 高功率密度(单机柜>25kW)的项目,一般考虑“液冷+风冷”的 方案,或采用定制化“近端风墙”方案,以满足机柜的散热需求。
(2)液冷方案。对于原有采用风冷的项目,可在充分利用原有风冷空调设备的基础 上,结合机柜功率密度和机房空间布局,进行部分或全部液冷改造。 液冷技术主要分为冷板式液冷和浸没式液冷两种方案。冷板式液冷 是将冷却液直接引导至设备的热源上,通过冷却板或冷却管道将热量带走;浸没式液冷则将整个设备完全浸泡在绝缘冷却液中,实现更大范围 的热传导效果。液冷技术是一种先进的散热方式,通过液体直接冷却设 备,实现了更高的散热效率和节能效果,适用于高功率设备的散热需求。
效能优化
相较于传统数据中心,智算中心在能源消耗方面呈现出显著的量级 差异。在实现智算化业务的同时,如何合理利用资源,根据智算改造目 标适配合理的设备,优化系统技术方案,从而降低能耗绝对值、提高能 源利用率,是实现高质量智算化改造的重要途径。
(1)设备升级与更新。在数据中心的智算化改造过程中,结合政策要求、成本收益,同时 考虑技术成熟度和兼容性,将原有供配电系统、制冷系统涉及的低能效、 高能耗的设备或部件淘汰,采用升级或替换为更高效的设备或部件,对 于智算中心整体效能提升起到积极作用。
(2)能源在线计量。针对传统数据中心各子系统配电柜电能表未计量的情况,增加子系 统级电能表在线计量装置,或针对电能表开展在线比对分析,从而可通 过能源监测系统明晰各子系统的能耗准确数值,后续可针对性开展节能 降耗措施。
(3)细节质量提升。在智算化基础设施改造的过程中,对于原系统的粗放式设计应进行 针对性质量提升,如机房气流组织不合理、冷热通道未封闭等导致能效 偏低的情况,可结合改造方案和 CFD 仿真模拟研究,提升细节质量。 数据中心机房的送风方式多种多样,包括风帽上送风、风管上送风、 地板下送风和行间级空调送风、弥散式送风等。实施过程中进行 CFD 仿真模拟研究,对比不同送回风形式的机房的热环境,实现改造方案。 为了减少冷热气流的混合,结合现场空间条件,可对冷/热通道进 行封闭改造,并结合 CFD 模拟的技术方法,对冷热通道隔离前后的热 环境指标开展研究,满足机房冷却的同时,最大限度实现节能的目的。
2.3 AI 赋能
快速响应
基于人工智能(AI)负载预测算法,可以根据智算的任务计划来预 测数据中心未来的负载趋势变化。通过对比负载预测结果和负载实时数 据,指导电气系统、制冷系统提前进行预调,确保在负载高峰或低谷到 来之前已经调整到最佳运行状态,从而实现快速响应,解决负载短时波 动下人工调适响应速度慢的问题。
寻优调适
AI 是智算中心的重要组成部分,在数据中心智算化改造的过程中, 引入 AI 对能源精细化管理和负载动态优化等工作可起到比人工更具时 效性的作用。
(1)能源精细化管理。利用 AI 统筹收集和分析智算中心大量的能源数据,包括历史能耗 数据、实时能耗数据、设备运行状态等。通过深度学习、时间序列分析 等算法,对这些数据进行处理和分析,建立精确的能源模型,用于预测 能源需求和供应情况。从而制定调度和分配方案,确保各设备能源供需 平衡,避免能源的浪费和损失。
(2)负载动态优化。利用 AI 技术预测智算中心的负载情况,包括计算负载、存储负载 和网络负载等。基于预测结果,进行负载的均衡分配,避免某些设备过 载而其他设备空闲的情况,提高整体资源利用率。此外,根据实时负载 情况和资源需求,智能调度和分配计算资源、存储资源和网络资源,达 到资源优化利用。
1.4 可持续发展
新能源利用
在政策支持的情况下,智算中心可以与区域内的其它能源用户或供 应商进行能源交易和共享。例如将本地的光伏电量通过需求侧响应、电 力辅助服务、电力现货交易、补贴等形式,参与能源平台交易,实现能 源的互利共赢和最大化利用。 此外,需要充分挖掘区域内各类可控能源的潜力,建立负载预测模 型,依据用能行为和用能状态进行能源错峰管理,构建一个综合能源供 应的资源池,实现能源利用的最大化。这样不仅有助于实现能源的高效利用,降低智算中心的运营成本,还能提升环境效益,同时推动可持续 发展,为企业的竞争力提升提供有力保障。
储能系统利用
由于受到空间限制的影响,在既有数据中心改造工程中部署储能系 统的规模很难做大。但是,由于储能系统有能力根据时间变化提供额外 能源,满足负载电能高峰值的需量要求,在面对智算负载的波动性时, 通过对储能系统进行精准控制,可以最大化地利用储能系统的调峰能力, 从而避免电网或油机的过载冲击,并减少对柴油发电机等备用电源的依 赖和需求。 因此,鉴于储能系统具有提供弹性、环境可持续性以及降低能源成 本等优势,可综合考虑部署储能的投资回报率(ROI)结合智算中心具 体用例、负载曲线、当地市场条件和其他因素,根据特定的输入场景和 运行模型,从而准确预测财务回报或投资回报率。此外,通过与智算中 心的基础架构融合,提高智算中心的 IT 和外电转化率,替代一部分不 间断电源 UPS 备电设备,发挥额外的经济收益。