践行深度用云:大模型混合云,十大创新技术.pdf
- 上传者:J***
- 时间:2025/02/20
- 热度:333
- 0人点赞
- 举报
践行深度用云:大模型混合云,十大创新技术。在AI场景中,CPU扮演着指挥统筹与核心控制 的角色,GPU/NPU负责核心AI大模型的并行高性能训练与推理计算。考虑到算力的供应多样性 与长期可获得性,以x86和ARM为代表的通用 算力和以GPU和NPU为代表的AI算力,将长期 协同发展与配合使用,因此需要考虑异构算力的 统一调度问题:
异构算力管理的挑战
资源管理:集群管理的资源从通常的CPU+内 存,变为CPU+内存+AI算力卡等多种异构硬 件管理。除了多种型号的AI算力卡、同型号多 代AI算力卡、还有整卡与切分卡的统一管理调度。
拓扑感知:大模型分布式训练过程中,AI算力 卡之间或AI服务器之间的带宽并不完全一致。 因此调度时,必须考虑异构资源的拓扑关系, 才能获得最佳的训练效率。
分布式训练调度的挑战
资源争夺冲突死锁:传统容器调度逻辑都是 按照单个容器依次调度。而分布式AI训练容器 必须同时运行以进行集合通信,且只能同时调 度成功或调度失败。否则,多个分布式作业在 资源调度层面出现争抢并导致死锁,所有训练 任务都无法得到有效调度。
AI资源碎片问题:单个训练/推理作业所需要 的AI算力卡数典型值为1、2、4、8、n*8,大 于8卡的作业,需运行在完全空闲的节点上。 随着多个任务的异步结束,集群中会出现资源 碎片,即便整体上存在足够的资源,需要多卡 的作业也无法运行,导致资源利用率降低。
推理算力利用率提升的挑战
AI算力多团队共享问题:集团内部需要考虑 不同部门多个彼此隔离的AI小集群可能导致的 整体资源利用率较低的问题,资源池化按需调 度是提升资源利用率的有效办法。
算力复用:在推理场景,需要实现推理卡的 多路任务并行复用,即多个算法共用一张AI 卡,以提升算力利用率。
免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。
- 全部热门
- 本年热门
- 本季热门
- 亚马逊分析报告:电商与云的先驱者和守擂者,如何寻求跨越周期的利润增长?.pdf 875 6积分
- 20240824-华为云&中国信通院-AI行业:2024云原生AI技术架构白皮书.pdf 614 5积分
- 紫光股份研究报告:深度布局“芯—云—网—边—端”,ICT龙头再启航.pdf 427 5积分
- 践行深度用云:大模型混合云,十大创新技术.pdf 334 7积分
- 践行深度用云:主机上云,运维现代化核心能力.pdf 164 5积分
- CSA GCR云安全联盟:2025年云与AI安全状况调查报告(英文版).pdf 81 5积分
- 阿里云(孙佳辉):2025年构建可靠、高效的全球互联网络报告.pdf 48 18积分
- 科技行业专题研究:AI大模型时代的全球产业链重构(211页).pdf 2170 30积分
- 2024大模型典型示范应用案例集.pdf 2168 37积分
- 大模型“引爆”行业新一轮变革:2024年中国AI大模型场景探索及产业应用调研报告.pdf 1856 8积分
- 紫光股份研究报告:深度布局“芯—云—网—边—端”,ICT龙头再启航.pdf 427 5积分
- CSA GCR云安全联盟:2025年云与AI安全状况调查报告(英文版).pdf 81 5积分
- 阿里云(孙佳辉):2025年构建可靠、高效的全球互联网络报告.pdf 48 18积分
- AI大模型深度报告:大模型研究框架(2025).pdf 1091 7积分
- CIC赛昇:2025年大模型智能体开发平台技术能力测试研究报告.pdf 919 5积分
- 2025年大模型平台落地实践研究报告.pdf 774 7积分
- 艾瑞咨询:2025年中国制造业数字化转型行业发展研究报告.pdf 721 5积分
- 乐心医疗研究报告:公司医疗垂直领域大模型赋能慢病管理设备,“AI +可穿戴+医疗”有望迎来爆发.pdf 660 5积分
- 爱分析AI大模型教育行业白皮书.pdf 631 6积分
- 华为&中国信通院:2025超节点发展报告.pdf 581 6积分
- 云2025大模型推理优化与部署实践产业洞察研究报告.pdf 193 6积分
- 同济大学:2025开源大模型法律风险及防范研究报告.pdf 156 6积分
- MINIMAX_WP公司研究报告:全球化多模态大模型公司,高性价比构筑核心竞争力.pdf 153 3积分
- 大模型赋能投研之十五:国产大模型编程辅助投研方案全方位评测.pdf 146 4积分
- 2025大模型原理技术与应用.pdf 143 20积分
- 中文大模型基准测评2025年年度报告:2026开年特别版,含1月底重磅模型动态评测.pdf 124 7积分
- 大模型技术深度赋能保险行业白皮书(2025).pdf 101 6积分
- 2025具身智能十大观察报告-洞悉智能发展之势探索智能向善之路.pdf 98 5积分
- 2025年AI大模型车载软件平台白皮书.pdf 97 5积分
