企业私有化部署和云上部署有何差异?

企业私有化部署和云上部署有何差异?

最佳答案 匿名用户编辑于2024/10/30 13:30

小型企业及高成长性企业云化驱动力较强,云上部署相较于私有化部署具备更高性价比。

1.企业私有化部署和云上部署的考虑因素

企业私有化部署对数据中心具有更高控制权,云上部署更具使用弹性。私有化部署即自建数据中心, 云上部署则采用云服务提供商的配套服务。在私有化部署情况下,企业数据不会通过公共网络传输, 安全性更高,且不同企业可针对自身特定需求进行定制化部署,具备更大控制权。云上部署则无需 投入大量初始资本以及后续运维费用,相关配套服务通常由云服务商统一提供,更加快捷易用,同 时可根据业务需求进行扩展或缩减,使用弹性更加灵活。

GPU供不应求、部署周期较长或成为制约企业私有化部署的关键,使用弹性、成本优势是企业选择 云上部署的长远考量。在AI时代下,GPU的供需缺口是导致众多企业难以进行私有化部署的关键, 当前,适用于AI的高性能GPU供不应求,众多中小企业和初创公司难以获得高性能芯片以自建算力 集群;此外,根据《华为云昇腾AI云服务》数据,云上部署相较于自建IDC,开通效率更高,通常 情况下,自建数据中心从招标到验收需要三个月以上,而云服务可做到分钟级资源开通。而从长期 来看,企业自建IDC的情况下,业务曲线和资源曲线之间容易产生短缺和浪费,云上部署则可以根 据业务情况灵活增减,实现资源按需付费,成本更加可控。

2.企业私有化部署和云上部署的客户画像

微小型企业选择上云为主,大型企业配备私有化部署。 ① 大型企业自建数据中心,业务生态有望整合协同。根据HG Insights数据,大型企业和中型企业在 上云的同时,还会选择自建数据中心。三大云厂商的下游客户中,超过70%的大型企业(员工数量 超过1000人)均会选择“上云+自建数据中心”的方案。由于大型企业具备较强的资金或资源实力, 通常会围绕自身核心业务配备数据中心,以实现业务的生态协同和更高的成本效益。 ② 小型企业选择上云为主,按需购买实现弹性易用。根据HG Insights数据,小微企业(员工数量小 于100人)以上云为主。由于小型企业云服务需求相对较小,且上云方案更加简单易用,只需按需 订阅,因此初创企业和小微企业多数选择上云为主。

微型支出客户占比约八成,北美地区客户分布较多。① 从客户支出水平来看:根据HG Insights数据,微型支出客户(月均支出小于1k美元)在各家云厂 商中的占比可达75%~90%;整体来看,谷歌的微型支出客户占比更高,亚马逊和微软的中大型支 出客户占比更高。 ② 从客户地区分布上看:根据HG Insights数据,亚马逊AWS和谷歌GCP北美客户占比过半,分别为 53%和52%,高于微软的38%;而微软Azure在欧中非地区具备相对优势,客户占比为39%,亚马 逊AWS和谷歌GCP分别仅为26%和28%。

稳态企业可选择自建机房,高成长企业云化驱动力较强。当企业业务长期稳定在某一存量水平,或 核心业务需要基础设施配套协同时,自建机房不失为一种合理的选择;而当业务具备较高成长性时, 企业可以选择分阶段、增量式上云,如互联网、游戏等行业,在开发阶段算力需求旺盛、系统需要 快速上线,项目可能呈现爆发式增长,为满足业务需要,上云更具灵活性。根据HG Insights数据, 金融、科技、医疗等行业的IT支出排名较为靠前,支付意愿较强。随着大语言模型的持续发展,金 融、科技(代码)、医疗、法律以上四大行业可以通过混合专家模型等技术手段,在基座模型之上 进行垂类专业能力的学习强化,推出具备更高成本效益的AI工具,为B端企业降本增效。

3.企业私有化部署与云上部署的成本探讨

当前,集群扩展的主要驱动因素在于千亿或万亿参数模型的预训练需求。在LLMs预训练阶段,需 要将大量的训练数据并行至足够量的GPU上,而GPU的显存成为制约训练更大模型的主要条件之一。 因此,我们基于AI时代下模型预训练的算力需求,对企业是否选择云上部署进行成本探讨。 ① 公式一:模型预训练所需计算次数=6*模型参数量*预训练数据量。根据OpenAI《Scaling Laws for Neural Language Models》,训练Transformer模型的理论计算量为C≈6N*D,其中,N为 模型参数量大小,D为训练数据量大小。 ② 公式二:模型预训练所用GPU hours=预训练所需计算次数/(单颗GPU每秒计算次数*60s* 60mins*GPU算力的有效利用率)。

影响因素一:模型大小。 企业AI模型多为业务场景而设计,部署中等大小模型即可满足一般需求。参考Meta的Llama系列模 型,可分为大/中/小三种尺寸模型。从模型参数量来看,可分为7B/70B/400B梯队;从预训练数据 量来看,可分为1T~2T和15T级别。从B端企业视角来看,AI模型主要为业务场景而设计,多数客户 无需对模型规模进行无限扩展,70B参数大小即可满足一般需求,而7B小模型通常为端侧场景设计、 千亿参数模型大多用作通用基座模型。因此,我们基于70B的模型参数量、预训练数据量分别选取 2.5T、5T、7.5T,对下游企业的模型预训练成本进行测算。

影响因素二:GPU的峰值算力。 H100为当前云服务可用实例的领先产品,模型训练多采用半精度算力水平。根据各个云厂商官网 公布的云服务可用实例,H100是当前企业用户能够获得的更为先进的GPU产品,相较于A100、 V100等芯片产品,H100的预训练效率更高、可扩展数量更多。且GPU采用的浮点精度不同,实际 的算力水平也有较大差别,精度越高、可支持的运算复杂程度越高,而在AI模型的训练场景中,通 常使用半精度浮点计算(FP16)。因此,我们将以H100在FP16 Tensor核心性能下的算力水平为 基础,对私有化部署和云上部署成本进行测算。

影响因素三:算力利用率(MFU) 。 万卡集群MFU可达40%,GPU数量越少、MFU越高。GPU的算力利用率(MFU)即GPU的实际 吞吐量与理论峰值吞吐量的比。由于大语言模型预训练并非简单的并行任务,而是需要将模型分布 在多个GPU之上,GPU之间需要频繁通信,叠加操作符优化、数据预处理、内存消耗等因素,GPU 的MFU在实际训练中难以达到理论上的算力峰值水平。根据Meta Llama-3.1官方披露数据,在8K 张和16K张GPU集群下,MFU分别可达到43%和41%的水平。根据字节的MegaScale论文,通过 仔细调整并行性配置、硬件和软件,在BF16精度下,MegaScale方法可实现50%以上的算力利用 率。此外,随着GPU数量的增加、算力集群的扩大,GPU算力的有效利用率呈现下降趋势。

影响因素四:GPU硬件成本、GPU租赁价格。私有化部署成本:单张H100成本在2万美金至3.5万美金之间不等,GPU成本约占集群总拥有成本 中约40%。根据SemiAnalysis数据,单张H100成本约2.5万美金。按照英伟达官方对一个1.6万卡 超大规模智算中心按照运营4年的计算,成本端需要投入10亿美元建设成本和运营成本,其中数据 中心基建投资和运营维护成本约占一半、GPU购置成本为40%,网络成本约10%。云上部署成本:H100云租赁价格从2$~13$/GPU/h不等。根据各个云厂商单张GPU的每小时定价, 头部厂商得益于基础设施更加安全完善、PaaS层配套工具更加全面易用,具备更高议价能力, H100云租赁定价基本在10$/GPU/h以上。而算力租赁初创企业定价基本位于2$~5$/GPU/h区间, 具备低价优势。

参考报告

从云计算看AI投资的ROI:企业上云具备性价比,云业务具备较高回报率.pdf

从云计算看AI投资的ROI:企业上云具备性价比,云业务具备较高回报率。小型企业及高成长性企业云化驱动力较强,云上部署相较于私有化部署具备更高性价比。私有化部署即自建数据中心,云上部署则采用云服务提供商的配套服务。1)部署考虑因素:在AI时代下,GPU的供需缺口是导致众多企业难以进行私有化部署的关键,当前,众多中小企业和初创公司难以获得高性能芯片以自建算力集群;且云上部署相较于自建IDC,开通效率更高。从长期来看,企业自建IDC的情况下,业务曲线和资源曲线之间容易产生短缺和浪费,云上部署则可以根据业务情况灵活增减,实现资源按需付费,成本更加可控。2)企业部署画像:根据HGInsights数据,初...

查看详情
相关报告
我来回答