大模型的发展与应用所需要的条件与公共云的优势高度契合。
1.公共云为训练全球领先的大模型提供必要条件
公共云具备建设万卡集群的工程化能力。当前,训练全球领先水平的大模型至少需要 具备万卡的集成能力,比如 Llama3 405B 模型的训练使用了 16000 张 H100。构建 万卡集群具有非常高的技术门槛,因为需要支持大量芯片做高速并行运算,通过优化 技术达到较高的运行效率,并保持长时间稳定运行。这并不是简单的芯片堆砌,也不 仅仅是加大资金投入就可以解决的问题。实现万卡高效协同工作,涉及 GPU 与 GPU 之间、服务器与服务器之间,甚至是数据中心与数据中心之间的通信、监控、调度、 管理,其背后是高并发分布式计算、高性能网络、超大规模弹性计算能力,包括芯片、 操作系统和网络等庞大的软硬件结合的工程,这些与云计算(尤其公共云)的技术特 征完全吻合。通过优化的软件栈和调度算法,公共云可以实现万卡集群高达 90% 的 并行效率。 公共云大规模计算集群具有高稳定性。训练全球领先水平的大模型需要大规模计算集 群具备高可靠性,长时间稳定运行。公共云通过多可用区部署,确保即使某个区域发 生故障,服务依然能够在其他区域无缝切换,维持服务连续性。关键组件和服务采用 了冗余设计,确保主节点故障时备节点可以迅速接管,降低单点故障的风险。公共云 通过实时监控集群状态,一旦检测到异常,立即触发告警通知,并启动自动化修复流程,可以自动检测并替换故障节点,无需人工干预。定期进行自动数据备份,并建立 异地容灾机制,以防发生意外时能迅速恢复数据。通过上述措施,公共云确保大规模 计算集群能够长期稳定运行,为用户提供可靠的服务。这种高稳定性不仅体现在日常 运营中,也能经受住一些极端情况的考验,有效训练时间占比超过 99%。
2.公共云提供高效率和低成本
公共云预置完备的工具提高工作效率。云计算平台可以整合从数据预处理、模型训 练到模型评测的全流程所需的工具,大幅度降低使用难度,提升工作效率。高效训 练:公共云提供分布式存储解决方案,可以高效存储和访问 TB 甚至 PB 级别的数据, 解决高频访问海量数据集的问题。公共云预置的深度学习框架(如 TensorFlow、 PyTorch、MXNet 等)、开发套件,集成了高性能计算库、分布式训练工具、自动混 合精度训练等功能,能够显著提升训练效率,缩短训练时间,间接节省了计算资源消 耗。简化部署:公共云提供了开箱即用的模型部署服务,用户可以便捷地将完成训练 的模型封装成 API、容器服务或边缘计算模块,快速上线并对外提供服务,无需从零 构建复杂的后端架构,大大减少了部署时间和人力成本。通过容器化技术,确保大模 型训练和推理环境的一致性,简化版本控制和更新过程。按照阿里云的测算,在公共 云上部署模型,效率是企业内部自建的 2 倍及以上。 公共云的资源共享带来资源的高效使用。公共云通过资源共享机制,能够在不同用户 和任务之间动态分配计算资源,避免了专用硬件常见的闲置和浪费,降低了成本,增 强了计算资源的灵活性和可扩展性。资源集中管理:公共云支持大规模分布式训练, 允许用户轻松搭建和管理包含数百甚至数千个计算节点的集群。公共云能够自动均衡 工作负载、优化数据通信、处理节点故障,确保资源在大规模训练任务中得到充分利 用。按需使用节约成本:用户仅需为实际使用的计算、存储和网络资源付费,无需预 先投资昂贵的硬件设备。用户可以根据模型规模、训练时间窗口以及计算需求的变化,动态调整资源配置,比如临时增加 GPU 实例数量以加快训练速度,或在非高峰时段 减少资源以降低成本,实现资源的精准匹配和高效利用。按需使用的方式避免了因过 度预估需求而购买闲置硬件导致的浪费,也消除了因需求增长而不得不频繁升级硬件 设施的成本压力。对于周期性或突发性的高计算需求,如模型迭代训练、大规模数据 预处理等,公共云能够迅速提供所需的额外资源,完成后即可释放,极大降低了总体 成本。根据业界的统计,从使用效率看,公共云资源使用效率一般可达 30%~40%; 而私有云资源使用效率一般约为 5%~10%。 公共云对能源利用效率高促进可持续性发展。
公共云往往投资建设高效、环保的数据 中心、计算中心,采用先进的冷却技术、电源管理系统以及可再生能源供电,其能源 效率远高于一般企业自建数据中心。公共云积极推行“东数西算”,在西部地区建设 数据中心,发挥西部拥有丰富的土地、水力和太阳能等清洁能源资源的优势。如果将 丰富的电力资源用于大模型的训练和推理,既能够满足大规模 GPU 集群的电力需求, 也节省了电力远距离传输的成本。西部数据中心的绿色化程度更高。按照全国一体化 数据中心建设要求,西部地区新建数据中心的平均 PUE(电源使用效率)值不大于 1.2, 低于东部地区新建数据中心的 1.25,这意味着其能效更高,对环境的影响更小。选择 使用公共云进行大模型训练和部署,实质上是在共享这些绿色基础设施,从而间接降 低了碳排放和能源消耗。
3.公共云为大模型提供全面安全保障
公共云原生的安全能力为大模型的全生命周期提供完备的安全保障。云通过提供标准 化与自动化的基础设施级防护、动态实时防护、数据安全、内容安全、算法安全等多 重保障,显著增强了大模型全生命周期的安全性,助力企业应对复杂的安全挑战,确 保服务的稳定和安全。 标准化与自动化的基础设施级别安全管控。云平台通常具备强大的底层安全防护能力, 包括 DDoS 防护、入侵检测与防御系统(IDS/IPS)、防火墙、密钥管理服务等,为 大模型提供全方位的安全屏障。云上安全配置、策略和工具高度标准化,能够自动应 用最佳安全实践,如使用安全的镜像构建流程、实施最小权限原则、集成安全扫描等, 降低因人为错误导致的安全风险。DevSecOps(开发、安全与运维一体化)确保安全 检测与加固贯穿大模型应用的开发、测试、部署全过程,及时发现并修复潜在安全漏洞。
动态安全策略与实时防护。公共云厂商持续投资于安全研究与防护技术升级,能够快 速响应新威胁,为用户提供及时的安全补丁和更新,减轻用户的安全运维压力。云的 技术体系支持动态调整安全策略,可以根据大模型应用的运行状态、威胁情报以及业 务需求实时更新防护措施,提供细粒度的访问控制、网络隔离和流量管理。公共云对 大模型应用的内部组件间通信进行严格控制,防止横向攻击;通过服务网格实现安全 策略的集中管理和分布式执行,增强整体安全性。 数据安全与隐私保护。对于大规模训练数据集,尤其是高价值的 SFT、DPO 数据,公 共云提供安全的数据存储服务,配合严格的访问控制和审计机制,防止数据的未授权 访问。容器化技术和虚拟化技术提供了逻辑隔离,使每个大模型应用实例在独立的环 境中运行,有效防止推理服务阶段用户数据泄漏。公共云支持数据的加密存储、数据 的加密传输(如 SSL/TLS)、密钥管理和数据脱敏等技术,确保大模型训练和推理涉 及的用户数据在存储、处理和传输过程中的保密性和完整性。

全生命周期一站式算法安全服务。云平台作为大模型服务的核心载体,集成了先进的 安全技术和丰富的实践经验,为用户提供统一的、功能全面的算法安全解决方案。这 些安全能力不仅针对大模型特有的复杂性和挑战进行了优化,还能够灵活适应不同行 业和应用场景的需求,确保大模型在数据处理、训练、评测、部署、推理全生命周期 内的每一个环节,都融入全面而深入的安全保障措施,确保人工智能模型既强大又安 全可靠。