智算技术发展关键词总结

智算技术发展关键词总结

最佳答案 匿名用户编辑于2023/10/31 15:23

以下是我对智算技术发展关键词的概括总结。

1.关键词 1:存算一体

存算一体作为一种新型算力,是突破 AI 算力瓶颈和大数据的关 键技术。与以往的冯诺依曼架构相比,打破了由于计算单元与存储单 元过于独立而导致的“存储墙”(CPU 处理数据的速度与存储器读写 数据速度之间严重失衡的问题,严重影响目标应用程序的功率和性 能),达到用更低功耗实现更高算力的效果。作为可 10 倍提升单位 功耗算力的颠覆性技术之一,存算一体有望降低一个数量级的单位算 力能耗,在 VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等 大规模并行计算场景中,具备高带宽、低功耗的显著优势。目前主流 的实现方案包括:一是利用先进封装技术把计算逻辑芯片和存储器 (如 DRAM)封装到一起;二是在传统 DRAM、SRAM、NOR Flash、NAND Flash 中实现存内计算;三是利用新型存储元件实现存算一体。当前 存算一体技术仍处于早期阶段,我国存算一体芯片创新企业与海外创 新企业齐头并进,在该领域的先发制人,为我国相关技术的弯道超车 提供了巨大可能性。

2.关键词 2:一云多芯

一云多芯是指用一套云操作系统来管理不同架构的硬件服务器 集群,可以支持多种类型的芯片,解决不同类型芯片共存所带来的多 云管理问题,最大限度利用云上资源池的强大算力。作为 IT 产业链承上启下的关键环节,向下纳管和兼容底层各种芯片、整机、操作系 统等软硬件基础设施,向上支撑大数据、人工智能、物联网、5G 等新 一代企业级应用,有效规避算力孤岛,逐步实现从算力的并存到算力 的统一。一云多芯通过纳管不同指令集的芯片,包括 CPU、GPU、DPU 等,为各类应用场景提供异构多元化的算力支持,满足智算业务高性 能计算和数据处理要求,助力算力平台建设标准化、统一化、服务化。 中国电信云骁智算平台基于天翼云全栈自研操作系统,打造一云六芯, 全面支持主流国产芯片。阿里飞天操作系统正在全面兼容 X86、ARM、 RISC-V 等多种芯片架构,实现一云多芯。

3.关键词 3:CPO

CPO(共封装光学)是光模块未来的一种演进形式,被视为 AI 高 算力下高能效方案。CPO 是指把光引擎和交换芯片共同封装在一起的 光电共封装,使电信号在引擎和芯片之间更快传输,缩短光引擎和交 换芯片间的距离,有效减少尺寸,降低功耗,提高效率。800G 光模块 可提高服务器之间互联密度,在同等算力下计算效率倍增,高效支撑 AI 大模型 100%释放算力。随着 AIGC 发展趋势明朗,高算力需求催化 更高速率的 800G/1.6T 光模块需求,LightCounting 预测,硅光模块 有望在 2025 年高速光模块市场中占据 60%以上份额。多家厂商也开 始大力研发用于数据中心的硅光模块,如新华三发布 51.2T 800G CPO 硅光数据中心交换机,单芯片带宽 51.2T,支持 64 个 800G 端口,支 撑 3.2 万台节点单个 AIGC 集群,单位时间内 GPU 运算效率提升 25%,硅光+液冷技术融合实现单集群 TCO 降低 30%,满足大模型智算网络 高吞吐、低时延、绿色节能需求[23]。

4.关键词 4:RDMA

RDMA (Remote Direct Memory Access) 是一种远程直接数据存 取技术,可以有效降低多机多卡间端到端通信时延,满足智算网络的 低时延、大带宽需求。当前 RDMA 技术主要采用的方案为 InfiniBand 和 RoCEv2 两种。InfiniBand 网卡在速率方面保持着快速的发展,主 流 200Gbps、400Gbps 已规模商用。当前用于大模型训练的智能算力 节点内部大多采用 InfiniBand 技术构建数据中心内高性能网络,提 供高速连接,以及微秒级的时延、无丢包,避免 GPU 计算等待数据传 输导致算力效率的下降。目前 InfiniBand 技术为英伟达独家控制, 成本偏高、开放性较弱,因此业界也在考虑用 RoCEv2 等无损网络技 术替代 InfiniBand 技术,但存在配置复杂、支持万卡规模网络吞吐 性较弱等问题。

5.关键词 5:DDC

传统 CLOS 网络架构面临多级转发导致时延高、设备低缓存、易 丢包等挑战,目前业界主要围绕优化 CLOS 架构、DDC 等开展研究。

(一)云商普遍采用多轨道流量聚合优化面向大模型训练的三层 CLOS 架构,确保在大规模训练时集群的性能和加速比。在多轨道网 络架构中,大部分流量都聚合在轨道内传输(只经过一级 ToR switch), 小部分流量跨轨道传输(需要经过二级 switch),让任一同号卡在不 同机器中的通信中的跳步数尽可能少,大幅减轻了大规模下的网络通 信压力。

(二)AT&T、博通推出 DDC(Disaggregated Distributed Chassis) 架构,支持 AI 超大规模集群弹性部署。DDC 将传统软硬一体的框式 设备组件进行拆解,使用若干个低功耗盒式设备组成的集群替换框式 设备业务线卡和网板等硬件单元,盒式设备间通过线缆互联。整个集 群通过集中式或者分布式的 NOS(网络操作系统)管理,以软件化的 方式灵活部署于任何一台标准服务器或多台服务器,能有效节省部署 成本,提升系统冗余性和可靠性。DDC 架构简单,支持弹性扩展和功 能快速迭代、更易部署、单机功耗低,可以根据 AI 集群大小来灵活 选择。基于 VOQ+Cell 机制实现端到端流量调度,充分利用缓存大幅 减少丢包,且解决了 ECMP 策略下流量负载不均衡的问题,能有效提 升宽带利用率。但由于 DDC 硬件要求专用设备、大缓存设计增加网络 成本等问题,目前可交付的 DDC 产品较少,有待进一步优化。

6.关键词 6:并行计算

智算在数据迁移、同步等环节,千卡以上规模的算力输出最低往 往仅有 40%左右。随着大模型规模的增长,需要考虑千卡甚至万卡规 模的 GPU 集群训练,在多个 GPU 上进行并行计算,将训练任务分解为 多个子任务并同时训练,以提升训练速度和效率。针对大规模并行计 算的特点,数据并行、模型并行、流水并行、混合专家、增量更新等 一系列优化算法和技术有效提升了算法的运行效率和并发性能以及 算力的资源利用率,支撑更高更复杂的训练速度和效率。当前业内普 遍采用多种并行方式联合优化的策略,如在机内做张量并行,同时配 合数据并行进行分组参数切分操作,在多组机器组成流水线并行,以 此来承载千亿甚至万亿的模型参数。

7.关键词 7:液冷

AI 服务器的功率较普通服务器高 6-8 倍,通用型服务器原来只 需要 2 颗 800W 服务器电源,而 AI 服务器的需求直接提升为 4 颗 1800W高功率电源,当前商汤、阿里等高性能 AI 服务器已达到 25kw 以上, 而风冷空调的极限在 25-30kw[25]。传统风冷面临散热不足、能耗严重 的问题,液冷技术成为了降低数据中心 PUE 的优解,其在 15kW/柜以 上时更具经济性优势。浸没式和喷淋式液冷实现了 100% 液体冷却, 具有更优的节能效果,PUE 均在 1.2 以下,甚至可低至不足 1.1;浸 没式液冷散热节能优势明显,在超算、高性能计算领域取得了广泛应 用。在机架功率密度要求和 PUE 限制下,液冷已成为智算中心制冷必 选项,预计 2025 浸没式液冷数据中心占比将达 40%[26]。

参考报告

智算产业发展白皮书(2023年).pdf

智算产业发展白皮书(2023年)以大模型为代表的通用人工智能不断演进,人工智能、机器学习、大数据分析等技术在金融、制造、汽车等领域持续渗透,大模型应用场景愈加广泛,正加速算力产业结构变革,智能算力将取代通用算力成为算力结构最主要构成,智算产业迎来了高速发展期。工信部最新数据显示,我国算力总规模已位居全球第二,保持年约30%快速增长,新增算力设施中智能算力占比过半,成为算力增长的新动能;我国算力产业创新能力持续增强,面向大模型训练、推理等高性能芯片供给持续增强,多元异构计算技术加速普及,有力支撑人工智能、区块链、元宇宙等新兴应用发展。

查看详情
相关报告
我来回答