未来算力智能调度存在的挑战及建议有哪些?

未来算力智能调度存在的挑战及建议有哪些?

最佳答案 匿名用户编辑于2022/10/12 14:51

你好,关于未来算力智能调度存在的挑战及建议,在《国家“东数西算”工程背景下新型算力基础设施发展研究报告》中有提及,具体信息可以查找原报告了解。

一是算力跨区域调度与网络协同难度大,智能化程度不足。当前的算力资 源提供商大多以地理区域为单位,部署服务管理平台,主要为特定地理区 域范围内的用户提供算力服务。当涉及到跨区域的算力调度时,首先,需 要保障各区域之间算力枢纽的协同联动,推动跨区域的算力资源与网络的 供需对接,实现算力资源的敏捷、智能化的调度;其次,目前算力资源智 能化调度模型整体调试、测试周期较长,对于资源请求响应较慢,业务调 度效率较为低下;最后,由于我国不同地区之间网络基础建设程度层次不 齐,存在算力枢纽节点之间网络薄弱的问题,这将有可能导致算力资源传 输时间、响应时间过长等问题。

针对跨区域的算力资源调度面临的协调、管理难度较大的问题,需要建立 起算力、算网的跨区域协同联动机制,在资源方面,算力资源提供方可以 通过在调度的各区域之间建立起统一的算力资源管理平台的方式解决,平 台需要建立算力资源与网络地址的映射机制,当算力资源的需求方需要跨 区域的算力资源时,算力资源管理平台将解析出符合算力需求方要求的算 力资源所在的地址,通过建立需求方与提供方的网络联接实现资源的智能 化调度。在智能化调度模型方面,通过弹性可伸缩架构、低延迟轻量化设 计、A/B测试滚动发布、多模型加权评估等技术创新 ,优化智能调度模型,实现计算资源的高效利用和快速部署。面对跨区域调度的网络传输问题,需要建立算网 一体化协同调度能力,例如通过引入 AI、SRv6 等技术构建新一代承载网络,实现通 过网络智能化感知业务需求、网络资源和算力资源;另外,运营商应当结合“东数西算” 的背景,在算力枢纽节点之间强化网络建设,保障资源在算力枢纽之间的快速调用。

二是算力跨云调度面临不同云厂商和云形态两方面异构的问题,难以统一管理。随着 业务发展带来的数据量的增加,用户对于计算资源的需求开始呈现多样化的趋势,单 一的云环境逐渐难以满足多样的计算需求,跨云环境下的计算资源调度开始被广泛应 用。当涉及到的算力资源属于不同提供商时,一方面,多个服务管理平台需要进行接 口的打通对接,另一方面,也涉及到不同算力资源的安全性的认证保障的问题;当涉 及到不同云形态的资源调度时,一方面,算力资源存在异构化、差异化的特点,导致 资源的统一分配、调度、部署较为困难,另一方面,由于不同的云环境之间存在网络 隔离,如何实现跨云组网,在不同的云服务商之间部署工作流,避免网络结构过于臃 肿,请求无法敏捷快速响应,将是面临的又一挑战。

针对跨云调度面临的问题,目前产业内企业、第三方服务商等,开始建设大型多云管 理平台,用以屏蔽底层异构资源的差异性,实现跨云资源的无差异调度。目前较为通 用的多云管理技术架构能够支持多种云资源池的接入,实现对多云资源的统一纳管、认 证和监控。多云管理技术能够实现对于虚机和容器的统一编排调度,提供无服务器模式的业务访问能力,使用户不需要关注底层资源的调度、分配,主要关注业务流程的 开发上。

三是算力云边调度面临节点统一管控难度大、边缘节点自治能力待提高的问题。在云 边协同的背景之下,边缘计算节点能够将云计算中心的计算和存储能力下沉,屏蔽掉 资源的异构化和地理位置差异,提供资源一致化的服务。但由于边缘计算节点较为分 散,所处环境、网络、稳定性等存在不一致的情况,因此,如何将单个节点的能力与 其他节点共同整合并与中心云联动,进行统一的管控调度是一个难题。另外,由于边 缘计算节点所处位置一般较为分散且偏远,而运维中心一般集中在地市、云端,这就 需要边缘云平台具备自动维护、自愈、修复等能力,保证在无人力值守的情况之下仍 然能够具备智能化的健康监测、边缘自治能力。但由于当前边缘侧面对的场景大多呈 现碎片化的特点,因此在网络问题、攻击问题等方面仍存在较大的治理压力,实现全 方位智能化的平台保护、自治存在较大难度,边缘节点自治能力仍有待提高。

针对边缘计算资源分散,难以统一管理的问题,目前边缘计算节点多数采用 Kubernetes 多集群的方式,来实现多个边缘计算集群的协同管理和计算资源的管理。 在分布式计算节点的健康监测方面,应建立健康能力检测的可视化平台,分布式健康 监测节点,在边缘侧持续收集节点的故障信息,快速定位并及时报告。在边缘节点自 治能力方面,面对碎片化的场景,需要进行分层的应对方案设计,包括设备层、网络 层、数据层和应用层,提供针对性的解决方案。例如,以 SuperEdge 为代表的边缘容 器方案提供的边缘自治能力,能够保障当边缘节点与云端网络连接不稳定或处于离线 状态时,边缘节点仍可以自主工作,化解由于网络波动带来的不利影响。

参考报告

国家“东数西算”工程背景下新型算力基础设施发展研究报告.pdf

国家“东数西算”工程背景下新型算力基础设施发展研究报告。今年2月,国家发展改革委会同中央网信办、工业和信息化部、国家能源局等有关部门,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏8地启动建设国家算力枢纽,并设立10个国家数据中心集群,正式启动“东数西算”工程,构建全国一体化大数据中心协同创新体系。与“西气东输”“西电东送”“南水北调”等工程相似,“东数西算”是一个国家级算力资源跨域调配战略工程,针对我国东西部算力资源分布总体呈现出...

查看详情
相关报告
我来回答