践行深度用云:大模型混合云,十大创新技术.pdf

  • 上传者:J***
  • 时间:2025/02/20
  • 热度:333
  • 0人点赞
  • 举报

践行深度用云:大模型混合云,十大创新技术。在AI场景中,CPU扮演着指挥统筹与核心控制 的角色,GPU/NPU负责核心AI大模型的并行高性能训练与推理计算。考虑到算力的供应多样性 与长期可获得性,以x86和ARM为代表的通用 算力和以GPU和NPU为代表的AI算力,将长期 协同发展与配合使用,因此需要考虑异构算力的 统一调度问题:

异构算力管理的挑战

资源管理:集群管理的资源从通常的CPU+内 存,变为CPU+内存+AI算力卡等多种异构硬 件管理。除了多种型号的AI算力卡、同型号多 代AI算力卡、还有整卡与切分卡的统一管理调度。

拓扑感知:大模型分布式训练过程中,AI算力 卡之间或AI服务器之间的带宽并不完全一致。 因此调度时,必须考虑异构资源的拓扑关系, 才能获得最佳的训练效率。

分布式训练调度的挑战

资源争夺冲突死锁:传统容器调度逻辑都是 按照单个容器依次调度。而分布式AI训练容器 必须同时运行以进行集合通信,且只能同时调 度成功或调度失败。否则,多个分布式作业在 资源调度层面出现争抢并导致死锁,所有训练 任务都无法得到有效调度。

AI资源碎片问题:单个训练/推理作业所需要 的AI算力卡数典型值为1、2、4、8、n*8,大 于8卡的作业,需运行在完全空闲的节点上。 随着多个任务的异步结束,集群中会出现资源 碎片,即便整体上存在足够的资源,需要多卡 的作业也无法运行,导致资源利用率降低。

推理算力利用率提升的挑战

AI算力多团队共享问题:集团内部需要考虑 不同部门多个彼此隔离的AI小集群可能导致的 整体资源利用率较低的问题,资源池化按需调 度是提升资源利用率的有效办法。

算力复用:在推理场景,需要实现推理卡的 多路任务并行复用,即多个算法共用一张AI 卡,以提升算力利用率。

1页 / 共55
践行深度用云:大模型混合云,十大创新技术.pdf第1页 践行深度用云:大模型混合云,十大创新技术.pdf第2页 践行深度用云:大模型混合云,十大创新技术.pdf第3页 践行深度用云:大模型混合云,十大创新技术.pdf第4页 践行深度用云:大模型混合云,十大创新技术.pdf第5页 践行深度用云:大模型混合云,十大创新技术.pdf第6页 践行深度用云:大模型混合云,十大创新技术.pdf第7页 践行深度用云:大模型混合云,十大创新技术.pdf第8页 践行深度用云:大模型混合云,十大创新技术.pdf第9页 践行深度用云:大模型混合云,十大创新技术.pdf第10页 践行深度用云:大模型混合云,十大创新技术.pdf第11页 践行深度用云:大模型混合云,十大创新技术.pdf第12页 践行深度用云:大模型混合云,十大创新技术.pdf第13页 践行深度用云:大模型混合云,十大创新技术.pdf第14页 践行深度用云:大模型混合云,十大创新技术.pdf第15页 践行深度用云:大模型混合云,十大创新技术.pdf第16页 践行深度用云:大模型混合云,十大创新技术.pdf第17页 践行深度用云:大模型混合云,十大创新技术.pdf第18页 践行深度用云:大模型混合云,十大创新技术.pdf第19页
  • 格式:pdf
  • 大小:3.5M
  • 页数:55
  • 价格: 7积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
  • 相关标签
  • 相关专题
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至