AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf

  • 上传者:2******
  • 时间:2024/05/17
  • 热度:472
  • 0人点赞
  • 举报

AI时代的通信网络专题:需求从何而来,创新将走向何方?网络是AI大模型时代的关键一环。大模型时代,我们已经开始看到光模块、 交换机等网络设备迭代加速,需求爆发。但市场对于为何显卡需要搭配大量 光模块,以及通信为何成为大模型痛点体会较浅。本文中,我们将从原理出 发,探讨网络为何成为AI时代的全新“C位”,并将从最新的产业变化中, 讨论未来网络侧的创新与背后的投资机会。

网络需求从何而来?进入大模型时代,模型体积和单卡上限之间的差距迅速 拉大,业界转而寻求多服务器集群来解决模型训练问题,这也构成了AI时 代网络“上位”的基础。同时,相较于过去单纯用于传输数据,如今网络更 多的用于同步显卡间的模型参数,对于网络的密度,容量都提出了更高要求。

日益庞大的模型体积:(1)训练耗时=训练数据规模 x 模型参数量/计算 速率(2)计算速率=单设备计算速率x设备数x多设备并行效率。当下, 业界对于训练数据规模和参数的双重追求下,唯有加速提升计算效率,才能 缩短训练耗时,而单设备计算速率的更新有其周期和限制,因此如何利用网 络尽可能的扩大“设备数”和“并行效率”直接决定了算力。

多卡同步的复杂沟通:在大模型训练过程中,将模型切分至单卡后,每经过 一次计算,单卡之间都需要进行对齐(Reduce、Gather 等),同时,在 英伟达的通信原语体系NCCL中,All-to-All(即所有节点都可以互相获取值 并对齐)的操作较为常见,因此对网络之间的传输和交换提出了更高的要求。

愈发昂贵的故障成本:大模型的训练往往持续数月以上,而中间一旦发生中 断,需要回到几小时或者几天前的断点进行重新训练。而整个网络中某一个 软硬件环节的故障,或者过高的延迟,都有可能导致中断。更多的中断,代 表着落后的进度和愈发高昂的成本。现代的AI网络,已经渐渐发展成堪比 飞机、航母等的人类系统工程能力的结晶。

网络创新将走向何方?硬件随需求而动,经过两年,全球算力投资规模已经 膨胀到数百亿美元级别,而模型参数的扩张,巨头的惨烈厮杀依然激烈。现 如今,“降本”、“开放”和算力规模之间的平衡将是网络创新的主要议题。

通信介质的更迭:光、铜与硅是人类传输的三大介质,在AI时代,光模块 追求更高速率的同时,也迈出了LPO、LRO、硅光等降本之路。在当前时间 点,铜缆凭借性价比,故障率等因素占领了机柜内连接。而 Chiplet, Wafer-scaling 等新半导体技术,则正在加速探索硅基互联的上限。

网络协议的竞争:片间通信协议与显卡强绑定,如英伟达的NV-LINK,AMD 的Infinity Fabric 等等,其决定了单台服务器或者单个算力节点的能力上限, 是非常残酷的巨头战场。而IB与以太网的斗争则是节点间通信的主旋律。

网络架构的变化:当下节点间网络架构普遍采用叶脊架构,叶脊具有便捷、 简单、稳定等特点。但随着单个集群节点数增多,叶脊稍显冗余的架构会给 超大集群带来较大的网络成本。当下,如Dragonfly架构,rail-only架构等 新架构有望成为面向下一代超大集群的演进方向。

1页 / 共34
AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第1页 AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第2页 AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第3页 AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第4页 AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第5页 AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第6页 AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第7页 AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第8页 AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第9页 AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第10页 AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第11页 AI时代的通信网络专题:需求从何而来,创新将走向何方?.pdf第12页
  • 格式:pdf
  • 大小:2.4M
  • 页数:34
  • 价格: 6积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
  • 相关标签
  • 相关专题
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至