算力时代全光网发展特征有哪些?

算力时代全光网发展特征有哪些?

最佳答案 匿名用户编辑于2024/10/11 16:07

万亿级参数大模型训练推动部署分布式智算集群方案。

一、高品质联云入算,开启万兆光网接入时代

各国政府和运营商都积极拥抱万兆全光接入时代的到来。新加坡 政府于 2023 年发布“数字联接蓝图(DCB)”,提出五年内实现国内 宽带接入 10Gbps 无缝链接,包括固定光接入、Wi-Fi 和无线通信; 2024 年发布“数字企业蓝图(DEB)”,计划在未来五年内,通过人工 智能解决方案、云端和集成化解决方案、提高网络恢复能力、提升员 工技能,让 5 万家中小企业受益。2024 年 4 月沙特通信部正式发布 万兆社会规划,包括万兆到个人、万兆到家庭和万兆到企业,指出光 网络作为基础设施是实现沙特“2030 愿景”的关键。日本 NTT 在 2024 年发布了 100G 大带宽的光专线入云连接,让客户可以通过 NTT 提 供的光专线,接入全日本 70 多个 NTT 数据中心,为云运营商和互联 网服务提供商(ISP)提供大容量骨干网和云服务平台,实现远程工 厂机器操作、多点 CAD 协同、远程医疗等云服务。截至 2024 年 7 月 底,中国固定互联网宽带接入用户总数达 6.56 亿户,其中 1000Mbps及以上接入速率的用户为 1.9 亿户,较 2023 年末净增 2684 万户,占 总用户数的 29%。在高速率用户持续增长拉动下,家庭户均接入带宽 达 491.5Mbps/户,同比增长 16.6%。到 2024 年中,包括北京、上海 等 19 个省份、直辖市的运营商发布万兆家宽场景的试点应用。据不 完全统计,全球已有超过 50 家运营商提供了万兆光纤宽带服务,万 兆时代已经来临。 万兆全光接入网络满足家庭、园区、企业等各类终端和业务对带 宽、时延、安全的综合需求。

1.智慧家庭超千兆网络需求 终端类型增加及业务类型丰富,促使家庭网络带宽需求提升。随 着家庭业务类型的丰富、家庭终端的多样化及并发数量的增加,以及 业务体验品质的提升,家庭多业务并发对超千兆甚至万兆家宽需求日 益显现。个人及智能家庭终端类型日益丰富,如 8K 电视、裸眼 3D 电 视、XR 头盔、家庭云盘等推动带宽需求不断增长,新兴智能家居终 端如智能门锁、智能音箱、扫地机器人等,也提出新的网络带宽需求。 此外,家庭交互视频和云服务业务类型不断丰富,如 XR 直播、AR/VR 视频、云办公、云存储和云游戏等,都对业务体验提出新的需求。据 宽带发展联盟研究,高质量裸眼 3D、8K 云游戏、在线存储等家庭业 务所需带宽已达到 5 千兆,。

2.智慧园区万兆网络需求 教育信息化、智能化发展推动校园带宽快速增长。随着智能化教 学设备普及率逐步提升,教学领域 XR 虚拟仿真教学设备采用 8K 以 上高分辨率,单台设备需要配置 160Mbps 带宽,每间教室 30 台带宽 需求近 5Gbps;考虑视频直播、电子课件下载,无线投屏等多媒体系 统的带宽叠加,未来 XR 教学教室带宽需求会接近万兆,如表 2 所示。 当前普教类中小学出口带宽在 500~1Gbps 左右,大专院校出口带宽 为 1~10Gbps 左右,主流以 10Gbps 为主,随着 XR 教学普及单个教室 带宽需要 10Gbps,学校出口带宽预计达到 20Gbps 到 100Gbps 以上。

3.智慧工厂万兆网络需求 AI 算力向制造行业边缘延伸,推动万兆工业园区网络建设。智 能汽车、智能制造等领域的生产企业,将越来越多依赖边缘 AI 算力 来实现制造流程的数字化和智能化升级。图 3 给出了汽车制造企业采 用全光网络的工厂连接方案示意图,利用 3D 机器视觉现场检验及远 控中心的 AI 智能分析技术,对生产过程中的关键零部件进行实时分 析,可大幅降低产品部件缺陷,提升装配行为规范性及生产效率。汽 车工厂的一条产线长度超过一公里,覆盖上千个点位,采用 3D 机器 视觉+AI 质检分析,每个点位需要配置 1Gbps 带宽,整个工厂需采用 10Gbps 组网,并且设备和线路需配置 1+1 冗余保护,保证全时在线。

工业制造领域需要高可靠低时延网络。在精准数控和工业相机等 领域要求 5 个 9 可靠性,工业生产总线涉及数十台套数控机床和上百 台工业相机的系统组合,整个网络的可靠性要求会达到 6 个 9 以上。 AI 质检分析及数控精准控制等需要满足实时强交互要求,网络时延 小于 1ms。

 

二、 城市内算力互联,打造 1ms 全光接入时延圈

金融行业对网络时延要求严苛,微秒级节省意义重大。高频交易 (HFT)利用自动交易系统在极短时间内捕捉市场波动并从中获利的 交易策略,对时延要求更加严苛。2022 年,为降低伦敦证券交易所和 Interxion 之间的网络时延,英国 euNetworks 公司累计铺设 14 公里的 空芯光纤(HFC),可每公里降低 3us 时延,金融行业实现微秒级时 延的节省具有重大价值。 多云互联可用区(AZ)要求单向互联时延小于 1ms。亚马逊等云服务商,在云网络建设中采用了可用性区域(AZ)设计理念,AZ 是 云服务地区范围(Region)内的若干独立数据中心的集群。AZ 之间 要有足够距离,以降低因天气、供电等因素带来的可靠性风险,实现 数据容灾备份。同时 AZ 之间需要满足往返时延(RTT)小于 2ms 要 求,保障多 AZ 之间的数据传输达到实时访问及同步。

个人及企业的实时云服务体验要求低时延传输。随着个人云视频、 企业分支上云、汽车自动驾驶、AI 推理应用普及等业务发展,个人终 端、家庭网络、企业分支、政府机构,都需要通过确定性低时延城域 网络来接入城域边缘算力中心,以获得更高效、及时的算力服务。按 照典型的 50km 半径范围,网络单向时延应控制在 1ms 以内。 城域 1ms 时延圈已成为运营商提升网络质量目标。《算力基础设 施高质量发展行动计划》明确要强化算力接入网络能力,要求城区重 要算力基础设施间时延不高于 1ms,提升边缘节点灵活高效入算能力, 满足企业快速、就近、灵活、高效联接算力需求。我国基础电信运营 企业积极开展算力接入 1ms 时延圈网络建设和质量监测,根据中国 信通院《算力网络运载力指数评估报告(2024 年)》的统计,截至 2024 年二季度,三家基础电信运营企业上报满足城市 1ms 时延圈的网络 数量超百个,网络覆盖半径和综合接入点比例差异较大。

三、 枢纽间算力互联,构筑高速可靠全光底

万亿级参数大模型训练推动部署分布式智算集群方案。随着 AI 大模型参数量从千亿迈向万亿,对超大规模算力需求急剧增长,单个 数据中心集群部署面临供电挑战。以 GPT6 为例,需要超 10 万张 H100卡的集群规模,整体功耗约 197 兆瓦,相当于一个典型火电站 1/5 发 电量。Google Gemini Ultra 模型参数量约 1.8 万亿,已采用多数据中 心协同训练的分布式智算集群部署方案,解决供电问题并满足超大规 模算力需求。 千卡/万卡数据中心互联带宽需求达到百 Tbps 量级。华为 Atlas 900 AI 集群由数千颗昇腾训练处理器构成,要求全节点 200Gbps 网 络互联,英伟达最新的Blackwell GB200单向网络速率达到400Gbps。 按照单卡出口带宽 200Gbps 或 400Gbps 来核算千卡、万卡规模的数 据中心间互联带宽需求,初期按照 10%规划互联带宽将达到 10~200Tbps,未来最大互联带宽将达到 100~2000Tbps。

数据中心互联推动 400G/800G 高速光传输系统部署。从全球相 干光传输网络带宽预测看,数据中心互联(DCI)带宽从 2023 年开始 占据光网络总带宽需求的 50%以上,且整体年增速达到 47%,同时电 信运营商及互联网企业的光传输带宽也在稳步增长,如图 2 所示。国 内枢纽中心的出局总带宽规划都在 100Tbps 以上,部分节点如长三角 枢纽的上海青浦节点,部署带宽已经超过 300Tbps。2024 年 5 月,北 京电信分公司和中国电信研究院联合在现网完成智算长距无损互联 技术验证,使用了单波长 800Gbps 的超高速光波分复用传输系统,光 层采用 C+L 扩展波段,整个系统传输容量近 100Tbps。

分布式大模型训练对 DCI 网络的可靠性要求非常高。在大模型 训练过程中,大约每 4 小时设置 1 个检查点(checkpoint)。一旦发生 光模块或网络链路故障,需要从上个 checkpoint 点重新训练,损失 4 个小时训练时间将导致训练成本增加,因此对 DCI 网络的可靠性要 求很高。此外传输网络的误码损伤会触发 RDMA 协议的回退机制, 每次丢包报文重传,传输时延会增加一个 RTT 周期,导致训练交互 时延变大,降低计算效率。分布式 AI 大模型训练要求高可靠无损传 输,确保网络可用性达到 6 个 9。

四、网络智能化调度,使能算网高效协同发展

算网智能化统一编排调度,赋能算力服务高效供给。依托算网融 合的统一管理控制系统和服务运营平台,精准实施算网资源的协同编 排与智能调度,确保算力服务的资源高效供给和性能体验卓越。向下 深度整合算网的全域资源,向上全面支撑多样化算网融合业务运营,通过融合 AI 与大数据技术,实现算网资源的一体化编排、智能调度、 精细管理及高效运维,构建灵活、高效、优化的算力服务生态,加速 AI 智算应用发展。 融合 AI 网络智能化技术,跃升全光网络运营效能。借助 AI 网络 大模型和大数据智能化分析能力,深度挖掘光网络潜力,在全光网络 的规划、建设、维护、优化、运营的全生命周期中,实现自智网络 L3 级别的全面自动化,并向 L4 级别的智能化逐步升级,显著提升网络 运营管理的效率与精准度,不仅实现故障预测预警和性能劣化的主动 运维能力,还提升算网融合业务的快速配置开通、动态带宽调整和精 准性能监测能力,引领全光网络迈入智能运维新时代。

参考报告

算力时代全光网架构研究报告(2024年).pdf

算力时代全光网架构研究报告(2024年)。随着行业数字化转型的深入及人工智能(AI)大模型技术的发展,AI在千行百业中的融合应用日益丰富,企业及家庭用户对算力资源的需求快速增长,数字经济已进入以人工智能+算力为核心生产力要素的算力时代。全光网作为运送和支撑调度算力资源的关键底座,其重要性日益凸显。算力时代下,各类算力应用场景向全光网提出新需求挑战,如多级数据中心间的算间互联带来大容量、低时延及云边协同,以及企业及家庭用户入云用算带来便捷接入、安全可靠及灵活敏捷等需求,全光网亟需加速演进,逐步升级网络架构和传输能力,支撑各级算力资源的灵活互联和用户高品质应用入算。面向支撑算力创新应用、赋能行业数...

查看详情
相关报告
其他答案
匿名用户编辑于2024/10/11 16:05

算力时代全光网呈现出四大需求特征,一是稳定大带宽,根据各 算力时代全光网架构研究报告(2024 年) 3 行业数字化、智能化应用需求,提供稳定充足的大带宽以支撑数据流 量的激增,包括未来低收敛或不收敛的大象流。二是安全高可靠,提 供高可靠高安全的网络连接,确保智算业务随时在线流转,保障各行 业应用顺畅和数据信息安全。三是确定低时延,降低传输链路时延和 时延抖动,支撑分布式智算集群的创新验证,提高行业应用的业务体 验。四是智能化服务,提供自动化、智能化的光网络资源调度和运维 管理服务,支持算力业务敏捷开通和高效可视运维,满足各行业数智 化发展的业务需求。

我来回答