计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存.pdf

  • 上传者:D***
  • 时间:2024/05/06
  • 热度:582
  • 0人点赞
  • 举报

计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存。AI大模型训练和推理拉动智能算力需求快速增长。a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持续提升依赖于更 大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均 推动算力需求的增长。b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推 理侧算力需求快速增长。

智算中心从集群走向超级池化。智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心;随着大模型普遍进入万亿规模,算 力、显存、互联需求再次升级,高速互联的百卡“超级服务器”可能成为新的设备形态,智算中心将走向超级池化阶段,对设备形态、互联方案、 存储、平台、散热等维度提出新的要求。

网络互联:节点内外多方案并存。1)节点内:私有方案以英伟达NVLink为代表,NVLink已经发展至第五代产品,同时支持576个GPU之间的无缝高 速通信;开放技术方案以OAM和UBB为主,OCP组织定义了业内通用的AI扣卡模组形态(OAM)-基板拓扑结构(UBB)设计规范。2)节点间:主要方 案为Infiniband和RoCEv2;Infiniband网络主要包括InfiniBand网卡、InfiniBand交换机、Subnet Management(SM)、连接件组成;RoCEv2网络 是一个纯分布式的网络,由支持RoCEv2的网卡和交换机、连接件、流控机制组成。InfiniBand在网络性能、集群规模、运维等方面具备显著优势。

1页 / 共24
计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存.pdf第1页 计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存.pdf第2页 计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存.pdf第3页 计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存.pdf第4页 计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存.pdf第5页 计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存.pdf第6页 计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存.pdf第7页 计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存.pdf第8页
  • 格式:pdf
  • 大小:2.9M
  • 页数:24
  • 价格: 6积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
  • 相关标签
  • 相关专题
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至