2024年海光信息研究报告:国产CPU+DCU龙头,AI算力国产化势不可逆

  • 来源:华福证券
  • 发布时间:2024/05/15
  • 浏览次数:2587
  • 举报
相关深度报告REPORTS

海光信息研究报告:国产CPU+DCU龙头,AI算力国产化势不可逆.pdf

海光信息研究报告:国产CPU+DCU龙头,AI算力国产化势不可逆。国产CPU及DCU龙头企业,经营状况持续向好。海光信息成立于2014年,主要从事高端处理器、加速器等计算芯片产品和系统的研究与开发。目前,公司在通用处理器(CPU)和协处理器(DCU)方向已经具备海光系列、深算系列两大成熟产品线并持续迭代升级。公司经营状况持续向好,公司已于2021年净利润扭亏为盈,2018-2023年公司营收与归母净利润持续保持增长势头。CPU性能领先,信创需求扩大市场空间海光信息消化吸收AMD授权技术,目前已具备产品自主迭代能力。截至2023年底,公司根据不同应用场景陆续推出海光7000、海光5000、海光3...

1 公司概况:国产 CPU 及 DCU 领军企业

公司是国内少数几家同时具备高端通用处理器(CPU)和协处理器(DCU)研发能力的集成电路设计企业。公司成立于 2014 年,主要产品包括海光通用处理器(CPU)和海光协处理器(DCU)。通用处理器产品(CPU)性能优异,软硬件生态丰富,兼容 x86 指令集及主流操作系统和应用软件。针对不同应用场景,CPU产品规划为海光 7000 系列、海光 5000 系列和海光 3000 系列。公司按照产品代际数,把 CPU 分为海光一号、二号和三号。截至目前,海光一号、二号和三号已经实现商业化,海光三号是 2023 年销售的主力产品。海光四号、海光五号也在持续推进产品进展。海光 CPU 系列产品已经得到了国内用户的高度认可,广泛应用于电信、金融、互联网、教育、交通等重要行业或领域。协处理器(DCU)产品以GPGPU架构为基础,软硬件生态丰富,应用领域广泛。目前公司 DCU 产品为8000 系列,海光DCU系列产品深算一号已经实现商业化应用,2023 年 11 月深算二号发布并实现商用,深算三号研发进展顺利。公司 DCU 系列产品被应用于大数据处理、人工智能、商业计算等应用领域,主要客户是智算中心等“新基建”项目、行业用户、AI 厂商及互联网企业。

1.1 股权结构:股权结构稳定,通过子公司持有AMD 永久授权

公司通过与 AMD 合资成立的子公司持有 x86 技术授权。公司无控股股东和实际控制人,自 2018 年以来,公司前两大股东分别为中科曙光和成都国资(含成都产投有限、成都高投有限及成都集萃有限,系一致行动人),两者持股比例分别为27.96%和 17.00%,股权结构稳定清晰。公司与 AMD 的合资子公司共两家:海光微电子、海光集成。海光微电子公司受让和使用 X86 处理器核相关技术,负责海光处理器核相关技术的开发;海光集成负责海光处理器外围相关技术的开发。

1.2 财务分析:营收快速增长,盈利能力不断提升

公司 2018 年-2022 年营业收入高速增长,2023 年由于营业收入基数较大,营业收入增速放缓。2018 年-2022 年海光营业收入增速均超过100%,主要得益于1)公司通过技术创新、产品迭代、功能提升等举措,不断提升产品竞争优势2)公司联合产业链上下游企业、行业用户等相关创新力量,实现协同技术攻关,共同打造安全、好用、开放的产品及解决方案 3)产业发展以及众多行业对国产服务器需求的大幅增加;公司整体经营情况持续向好,高端处理器产品的产业生态持续扩展,涉及的行业应用以及新兴人工智能大模型产业逐步增加。

公司 2021 年扭亏为盈,2021 年-2023 年归母净利润稳步提升。2019年和2020年公司出现连续亏损,主要原因是公司产品上市初期营业收入规模相对较小,公司设立以来研发资金投入较大,对骨干员工实施了多次股权激励并相应确认了较大金额的股份支付。2021 年,公司 DCU 产品实现规模销售,同时受市场需求快速增长影响,公司实现盈利。随着公司销售规模扩大,规模效应开始显现,同时产品不断迭代升级,归母净利润稳步提升。 分产品看,代际升级显著带动毛利率提升,未来增长潜力大。2019年-2021年,CPU 产品的毛利率呈现逐步增长趋势,总体上随着产品迭代节奏增长。2020年1月,海光二号实现量产,推出了 7200 系列、5200 系列、3200 系列产品,海光二号在海光一号基础上,对 Core 微结构进行优化,提升处理器核心性能和安全应用性能,同时海光二号产品的毛利率相比于海光一号产品有了大幅度上涨,营业收入随之较大幅度上涨。2021 年公司 8100 系列 DCU 产品实现量产,毛利率较低,为34.84%,主要系该产品刚刚上市,销售规模较小。公司 2023 年通过技术创新,进一步提升了产品性能,得到客户充分认可,在毛利率方面有所提升,实现了业绩的持续增长。

公司毛利率维持增长态势,23 年同比增长 7.3pcts。2019 年-2023 年,公司毛利率从 37.3%增长至 59.7%,总体呈稳定增长的趋势,仅2022 年由于封装测试成本上涨导致小幅下跌。与国内同业公司相比,公司 2019 年-2023 年毛利率的增幅相对较大。2022 年及以前公司毛利率与国产 CPU 行业可比公司龙芯中科相当;23年毛利率已经大幅高于龙芯中科,毛利率水平接近国内 AI 芯片公司寒武纪。我们预计未来随着公司 DCU 产品营收占比的提升,公司毛利率会进一步上升。

公司费用率呈下降趋势,盈利能力持续改善,研发投入持续加强。2019年-2023年,由于公司营收规模的快速增长及运营效率的提升,公司费用率总体上呈现下降趋势,销售费用率降至 1.85%,管理费用率降至 2.23%,财务费用率降至-4.43%,公司的盈利能力持续改善。公司 2019 年-2023 年研发费用支出逐年上升,研发投入持续加强,公司 2023 年研发费用为 19.9 亿元,同比增长40.95%,2023 年公司研发费用已经大幅超过龙芯中科和寒武纪。公司研发技术人员共1,641 人,占员工总人数的91.68%,79.28%以上研发技术人员拥有硕士及以上学历,持续的研发投入带来产品的不断迭代升级。

公司营运能力维持健康水平。公司应收账款周转天数从2019 年的9天增长至2023 年的 73.7 天,主要原因系营收规模的快速增长。2021 年、2022 年、2023年销售商品、提供劳务收到的现金/营业收入比例分别为118.33%、90.16%、108.17%,尽管应收账款周转率随着营收规模扩大逐年下降,但公司现金回款能力维持在健康水平。存货周转天数总体稳定,2021 年公司为应对全球芯片行业供应链相对紧张的状况,适当备货并保持一定库存,使得存货周转天数有所提升。

公司经营活动产生的现金流或将稳步增长。公司2023 年经营活动产生的现金流为 8.14 亿元,同比增长 1993%,系 2023 年营收规模增大与盈利能力提高的影响,经营活动产生的现金流或将在海光四号和深算二号量产及商业化后会进一步增长。

2 海光系列 CPU 性能优异,信创行业助力市场扩张

2.1 公司已实现产品自主迭代,服务器 CPU 产品国内领先

公司已经完整吸收 AMD 授权技术,具备自主研发创新能力。AMD分别于2016年 12 月、2018 年 9 月完成授权技术整套源代码交付,公司已经完整取得并消化吸收了 AMD 授权技术,公司后续代际产品技术创新和迭代开发并不依赖于AMD更新授权或提供技术支持。 海光一号 CPU 主要基于 AMD 交付的源代码进行研发,公司着重“消化吸收”引进技术,同时进行部分自主创新。通过海光一号 CPU 的研发和产业化,公司建立了高性能通用处理器设计方法学、研发流程、产品工程技术体系等,建立了一支具有国际主流 CPU 研发经验的设计团队,为海光 CPU 后续产品的生产、研发奠定了基础;通过海光二号产品设计,公司全面掌握通用处理器设计技术;从海光三号处理器开始,公司独立开展通用处理器的迭代开发。

AMD 自 2019 年 6 月公司被美国政府列入“实体清单”起停止了与公司的技术交流,但公司在此之后仍然独立开发、迭代升级了多款CPU 产品,说明了公司后续代际产品技术创新和迭代开发并不依赖于 AMD 的技术支持。公司各代际 CPU 产品的技术指标逐代提升。公司在吸收AMD授权技术的基础上,不断突破高性能处理器核心技术,海光系列 CPU 的功能不断丰富,性能逐代提升。海光一号 CPU 基本达到 AMD 授权技术同代产品技术指标。海光二号CPU性能相对于海光一号提升一倍。海光三号 CPU 相比于海光二号综合性能提升20%以上。

公司产品性能已达到国际上同类型主流高端处理器的水平,在国内处于领先地位。海光 CPU 与国际领先水平的差距逐渐缩小,海光7285CPU的SPECCPU2017的实测性能已经与国际领先芯片设计企业 Intel 同期发布的主流处理器产品的实测性能总体相当了。海光 7285CPU 拥有 32 核心、64 线程、2.0GHz 主频、128PCle通道、DDR4 内存,在运算速度、带宽、传输速度等方面有可靠保证,在参数和性能上领先国内其他厂商。

2023 年公司销售的主力产品是海光三号产品。海光三号系列芯片最高规格具备32 核心 64 线程,拥有多达 128 条 PCle4.0 通道,支持内存频率提升至3200MHZ。相比上一代产品,海光三号的整体实测性能提升了约45%。在SOC设计、I/O带宽、取指单元、功能模块、防御机制等方面,海光三号均做了不同程度的优化,综合性能大幅跃升。

2.2 x86 为服务器主流架构,生态优势显著

计算机的程序最终需要转化为“指令”才能在 CPU 上运行,所以采用的指令集对于 CPU 的设计尤为重要。按照采用的指令集,CPU 可以分为复杂指令集(CISC)和精简指令集(RISC)两大类。复杂指令集架构与精简指令集架构是基于两种不同的指令集思路进行设计,这两种架构有着各自不同的特点:复杂指令集指令丰富、寻址方式灵活,以微程序控制器为核心,指令长度可变,功能强大,复杂程序执行效率高;精简指令集指令结构简单、易于设计,具有较高的执行能效比。x86架构是复杂指令集的代表,而 ARM 架构、MIPS 架构和 Alpha 架构等是精简指令集的代表。

x86 架构软硬件环境的成熟度高,生态优势显著。在操作系统领域,Windows和 Linux 均兼容 x86 架构;在应用软件方面,得益于对独力软件开发商的指令集开放与应用平台操作系统一致性,显著降低了技术开发门槛,使得x86 架构下的软硬件环境的成熟度相较于其他架构具有明显优势。 在服务器领域,x86 架构是主流选择。x86 架构服务器CPU销售额占比总体维持在 90%左右,占据服务器 CPU 市场的大部分市场份额,2023Q4 x86架构服务器CPU 销售额占比为 84.16%。服务器 CPU 市场中 Intel 和AMD 的出货量占比约九成,共同构筑 x86 垄断地位。2023Q4 x86 架构服务器 CPU 的出货量占比为86.74%,其中 Intel 及 AMD 的出货量占比为 97.07%,市场占有率遥遥领先。

公司 CPU 产品采用 x86 架构,迎合市场主流。海光CPU系列产品兼容x86指令集以及国际上主流操作系统和应用软件,性能优异,软硬件生态丰富,安全可靠,得到了国内用户的高度认可,已经广泛应用于电信、金融、互联网、教育、交通等重要行业或领域。2020 年公司 CPU 产品销售量约占总体市场份额的3.75%。公司产品占据了国产 x86 服务器处理器绝大部分市场份额。

2.3 公司产品根植于本土市场,已获市场认可

公司产品在国内市场具有竞争优势,已获国内知名服务器厂商认可。公司在国内率先完成了高端通用处理器和协处理器产品成功流片,并实现了商业化应用。公司产品性能达到国际上同类型主流高端处理器的水平,在国内处于领先地位。自2018年来,浪潮、联想、新华三、同方等多家国内知名服务器厂商的产品已经搭载了海光 CPU 芯片,并成功应用到工商银行、中国银行等金融领域客户,中国石油、中国石化等能源化工领域客户,并在电信运营商的数据中心类业务中得到了广泛使用。

2.4 信创“2+8+N”快速发展,国产服务器 CPU 市场扩张

信创产业持续以“2+8+N”的节奏快速发展。信创产业,即信息技术应用创新产业,与“863 计划”、“973 计划”、“核高基”一脉相承,旨在实现我国信息技术产业自主可控。(1)“2”:2022 年,是党政信创三年全面推广阶段的收官之年,市级以上电子公文系统的国产化改造已经基本完成,2023 年及以后,还将进一步向区县层面下沉拓展。2022 年 9 月,国家下发 79 号文,全面指导国资信创产业发展和进度,要求到 2027 年央企国企 100%完成信创替代,其中,芯片、整机、操作系统、数据库、中间件是最重要的产业链环节。(2)“8”:在党政部门的引领下,金融、电信、电力、交通等八大重点行业也开始加快自主可控步伐。在行业信创中,金融行业推进最快,2020 年和 2021 年,金融信创试点启动了两期,对金融机构IT 软硬件采购和办公、业务系统国产化替代比例提出具体要求;电信、交通、电力、石油、航空航天等行业有望紧跟其后。

伴随着信息技术应用创新产业政策的实施,国产处理器的市场规模快速增加。相对其他国产处理器,海光处理器产品具有优异的性能和生态优势,产品兼容性高,可以直接适配最终客户复杂应用场景,用户接受度较高。随着用户对海光产品认可度的持续上升,公司积累了大量的采购需求,基于海光处理器的国产服务器和工作站需求旺盛。近期,行业重要大型集采订单陆续披露,其中金融、电信运营商是国产化推进最快的两大重点行业,相关大型集采订单可作为影响市场预期的标杆案例。截至 2022 年 2 月 27 日,中国移动、中国电信 2021-2022 服务器集采中标名单中,合计国产服务器整机集采额73.47亿元,其中搭载海光处理器的服务器整机集采额37.84亿元,占比达到 50%。国内最终客户对海光的需求日益强劲,持续经营前景良好。公司业务增长预期良好,与关联方交易金额预计大幅增长。公司对2023年年度股东大会召开之日至 2024 年年度股东大会召开之日期间与关联方的交易情况进行了预计,预计金额为 712,900 万元,上年实际发生金额为316,573.67 万元,预计同比增长 125.19%,增长主要集中在销售商品和提供劳务、租赁及服务、知识产权费用等类别,主要原因是公司业务增长、知识产权采购量增加,公司今年业务增长预期良好。

3 深算系列 DCU 迭代顺利,构成公司第二增长曲线

3.1 国产高性能 DCU,支持 AI 训练与推理

DCU 指的是深度计算处理器(Deep-learning Computing Unit),是海光信息基于通用的 GPGPU 架构,设计、发布的适合计算密集型和运算加速领域的一类协处理器。本质上,海光的 DCU 属于 GPGPU 的一种,且全面兼容ROCmGPU计算生态。由于 ROCm 与 CUDA 在生态、编程环境等方面高度的相似,使得海光DCU能够在一定程度上适配大数据处理、人工智能、商业计算方向上的国际主流软件。

海光信息 DCU 具备以下两大特点:

(1)GPGPU 架构:运算协处理器的主流方案

GPGPU 是专注于通用计算的图形处理器。GPGPU 全称为通用计算图形处理单元,GPGPU 在 GPU(图形处理单元)的基础上增加了通用计算能力,这使得其用于图形渲染,还能够高效执行各种通用计算任务,包括科学计算、数据分析、深度学习等。 GPGPU 目前是最流行的 AI 算力芯片技术路线。运算协处理器基于不同的设计思想存在多条技术路线,包括 GPGPU、ASIC、FPGA 等。其中,ASIC性能优异,功耗比佳,但一种 ASIC 芯片只能单一地解决一种问题,因此缺乏灵活性。FGPA芯片功耗能效比高,灵活性强,但价格较高,计算能力和峰值性能不如GPU。综合考虑性能、能效比和编程灵活性等方面因素,GPGPU 在协处理器应用领域具有非常明显的优势,也是目前最流行的技术路线,广泛应用于商业计算、人工智能和泛人工智能等领域。

(2)类 CUDA 生态:兼容性好

CUDA 架构是适合大规模数据密集型计算的并行计算架构。CUDA(ComputeUnified Device Architecture,统一计算设备架构)诞生于2006 年,是一种由NVIDIA推出的通用并行计算架构,包含了应用于 NVIDIA GPU 的指令集(ISA)以及GPU内部并行计算引擎。CUDA 程序构架分为两部分:Host 和Device。一般而言,Host指的是 CPU,Device 指的是 GPU。在 CUDA 程序构架中,主程序还是由CPU来执行,而当遇到数据并行处理的部分,CUDA 就会将程序编译成GPU能执行的程序,并传送到 GPU。它让 GPU 不仅能够处理图形任务,还能够处理科学计算、机器学习、密码学等领域的复杂和耗时的计算任务。 CUDA 生态成熟,软硬件深度绑定。与其他架构相比,CUDA的显著优势在于其完备的生态。经过英伟达持续的更新和维护,CUDA 已经具备丰富成熟的软件生态:CUDA 能够支持多种编程语言和第三方工具链、可快速部署多领域常用库、应用程序更易加速。

CUDA 的竞争者:OpenCL 与其余厂商推出的类CUDA 生态。OpenCL(OpenComputing Langugae,开放运算语言),是面向异构系统( CPU、GPU及其它处理器)的并行编程的开放式标准,由苹果于 2008 年协同多家厂商共同推出。与只能够在NVIDIA 设备上运行的 CUDA 框架不同,OpenCL 是跨平台的,也是开源的,可以在大多数类型的硬件上(包括 FPGA 和 ASIC)运行,Intel、NVIDIA、ARM、AMD、Apple 都有其对应的 OpenCL 实现。ROCm 全称为Radeon Open Computingplatform,是基于 AMD GPU 系列开源设计的计算生态,目标是建立与NVIDIACUDA生态可替代的平台。为了实现对 CUDA 平台的可替代性,ROCm 复制了CUDA的技术栈,这使得其能够较好地兼容 CUDA 平台上的功能。

海光 DCU 基于 ROCm 架构,能够兼容 CUDA 生态。海光DCU协处理器全面兼容 ROCm GPU 计算生态,由于 ROCm 和 CUDA 在生态、编程环境等方面具有高度的相似性,CUDA 用户可以以较低代价快速迁移至ROCm平台,ROCm也被称为“类 CUDA”。因此,海光 DCU 协处理器能够较好地适配、适应国际主流商业计算软件和人工智能软件,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等计算密集类应用领域,主要部署在服务器集群或数据中心,为应用程序提供高性能、高能效比的算力,支撑高复杂度和高吞吐量的数据处理任务。

3.2 深算系列展现性能优势,商业落地进展显著

深算一号基本达到同类型产品水平。海光 DCU 基于大规模并行计算微结构进行设计,在双精度浮点计算、单精度、半精度、整型计算方面表现同样优异,是一款计算性能强大、能效比较高的通用协处理器。此外,海光DCU集成片上高带宽内存芯片,可以在大规模数据计算过程中提供优异的数据处理能力。与英伟达、AMD高端 CPU 产品相比,DCU 的第一代产品海光“深算一号”生产工艺同为7nm制程,内存频率和显存位宽与 A100 基本相当,显存容量、显存带宽和显存频率相当于A100的 50%左右,差距比较大的是多卡协同的交互速率,只有A100 的30%。总体来讲,海光深算一号的性能预计能达到英伟达 A100 的 40%以上的水平。

DCU 系列产品不断迭代,深算二号、三号进程加速。深算二号已于2023三季度正式发布,实现了在大数据、人工智能、商业计算等领域的应用。深算二号具有全精度浮点数据和各种常见的整型数据计算能力,性能相比深算一号提升100%。此外,深算三号也在加紧研发中。 海光 DCU 适配性良好,商业应用得到认证。海光DCU 主要部署在服务器集群或数据中心,为应用程序提供性能高、能效比高的算力,支撑高复杂度和高吞吐量的数据处理任务。在 AIGC 持续快速发展的时代背景下,海光DCU能够支持全精度模型训练,实现 LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型的全面应用,与国内包括文心一言等大模型全面适配。此外,百度飞桨与海光 DCU 已经完成互证。百度飞桨深度学习框架与海光人工智能加速卡DCU系列进行了安装部署测试、基本功能测试和稳定性兼容性测试,联合测试结果显示百度飞桨深度学习框架在海光 DCU 系列以及海光 3000、5000、7000 系列CPU环境上均能顺利安装,可以可靠、稳定、高性能地运行,满足用户的关键性应用需求。PaddleROCm版当前可以支持在海光 CPU 与海光 DCU 上进行模型训练与预测。当前PaddleROCm 版同样支持海光 DCUToolKit 工具包(DTK)。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至