践行深度用云：大模型混合云，十大创新技术.pdf

上传者：J***
时间：2025/02/20
热度：333
0人点赞
举报

践行深度用云：大模型混合云，十大创新技术。在AI场景中，CPU扮演着指挥统筹与核心控制的角色，GPU/NPU负责核心AI大模型的并行高性能训练与推理计算。考虑到算力的供应多样性与长期可获得性，以x86和ARM为代表的通用算力和以GPU和NPU为代表的AI算力，将长期协同发展与配合使用，因此需要考虑异构算力的统一调度问题：

异构算力管理的挑战

资源管理：集群管理的资源从通常的CPU+内存，变为CPU+内存+AI算力卡等多种异构硬件管理。除了多种型号的AI算力卡、同型号多代AI算力卡、还有整卡与切分卡的统一管理调度。

拓扑感知：大模型分布式训练过程中，AI算力卡之间或AI服务器之间的带宽并不完全一致。因此调度时，必须考虑异构资源的拓扑关系，才能获得最佳的训练效率。

分布式训练调度的挑战

资源争夺冲突死锁：传统容器调度逻辑都是按照单个容器依次调度。而分布式AI训练容器必须同时运行以进行集合通信，且只能同时调度成功或调度失败。否则，多个分布式作业在资源调度层面出现争抢并导致死锁，所有训练任务都无法得到有效调度。

AI资源碎片问题：单个训练/推理作业所需要的AI算力卡数典型值为1、2、4、8、n*8，大于8卡的作业，需运行在完全空闲的节点上。随着多个任务的异步结束，集群中会出现资源碎片，即便整体上存在足够的资源，需要多卡的作业也无法运行，导致资源利用率降低。

推理算力利用率提升的挑战

AI算力多团队共享问题：集团内部需要考虑不同部门多个彼此隔离的AI小集群可能导致的整体资源利用率较低的问题，资源池化按需调度是提升资源利用率的有效办法。

算力复用：在推理场景，需要实现推理卡的多路任务并行复用，即多个算法共用一张AI 卡，以提升算力利用率。