如何看待寒武纪未来成长空间?

如何看待寒武纪未来成长空间?

最佳答案 匿名用户编辑于2024/07/16 11:02

壁垒深厚,未来可期.

1.云边端业务线协同发力,产品矩阵逐渐完善

公司是智能芯片领域全球知名的新兴公司,能提供云边端一体、软硬件协同、训 练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。公司 掌握的智能处理器指令集、智能处理器微架构、智能芯片编程语言、智能芯片数 学库等核心技术,具有壁垒高、研发难、应用广等特点。公司的主营业务是应用 于各类云服务器、边缘计算设备、终端设备中人工智能核心芯片的研发、设计和 销售,以及为客户提供丰富的芯片产品。目前,公司的主要产品线包括云端产品 线、边缘产品线、IP 授权及软件。 自 2016 年 3 月成立以来,公司快速实现了技术的产业化输出,先后推出了用于 终端场景的寒武纪 1A、寒武纪 1H、寒武纪 1M 系列智能处理器;基于思元 100、 思元 270、思元 290 芯片和思元 370 的云端智能加速卡系列产品;基于思元 220 芯片的边缘智能加速卡。其中,寒武纪智能处理器 IP 产品已集成于超过 1 亿台 智能手机及其他智能终端设备中,思元系列产品也已应用于浪潮、联想等多家服 务器厂商的产品中。思元 220 自发布以来,累计销量突破百万片。

云边端业务线协同发力。公司以云端芯片为业务核心,延伸至边缘产品线服务客 户需求。基础系统软件平台打破不同场景之间的软件开发壁垒。智能计算集群系 统业务核心算力来源是公司自研的云端智能芯片,聚焦人工智能技术在数据中心 的应用,提供软硬件整体解决方案,以科学地配置和管理集群的软硬件、提升运 行效率。

2.掌握智能芯片和基础系统软件领域核心技术

从系统角度看人工智能领域,智能芯片是最底层的硬件物质载体,提供了充裕的 智能计算能力;基础系统软件位于智能芯片和人工智能程序之间,向下管理、调 用和控制智能芯片、向上支撑人工智能程序的开发和运行。在通用型智能芯片及 基础系统软件之上,开发者可以研发各类人工智能算法、实现各类人工智能程序, 最终实现机器视觉、语音处理、自然语言处理以及推荐系统等多样化的人工智能 功能。公司全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心 技术,能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化 智能芯片产品和平台化基础系统软件。公司不直接从事人工智能最终应用产品的 开发和销售,但对各类人工智能算法和应用场景有着深入的研究和理解, 能面 向市场需求研发和销售性能优越、能效出色、易于使用的智能芯片及配套系统软 件产品,支撑客户便捷地开展智能算法基础研究、开发各类人工智能应用产品。

(1)云端智能芯片。公司云端智能芯片主要以实体芯片或加速卡的形式应用于各类云服务器或数据 中心中。根据公司招股说明书,公司在完成芯片设计的一系列复杂流程后,将最 终的芯片版图交付给台积电进行晶圆代工,然后委托日月光或 Amkor 等厂商完 成芯片的封装测试,再由电路板厂商使用芯片生产出加速卡(即包含智能芯片的 电路板),最后将加速卡销售给客户,这也是全球各大芯片设计企业常见的运营 模式。云端智能芯片及加速卡需与服务器厂商生产的服务器整机产品进行适配, 通过服务器厂商、OEM 厂商针对其功能和性能(如稳定性、运行速度和功耗等) 的全方位严格认证,才能进入大规模商用阶段。因此,研发此类产品不仅要攻克 智能芯片架构等一系列核心技术难关,还要跨越各服务器厂商的高准入门槛。 云端智能芯片性能方面,寒武纪、英伟达、华为海思研制的云端芯片产品都已采 用 7nm 等先进工艺,在性能功耗比上较为接近。在峰值计算能力方面,英伟达 凭借其 A100 占据了领先位置,高于寒武纪与华为海思的竞争产品;英特尔通过 收购 HabanaLabs 获得了 Goya 和 Gaudi 两款产品,其峰值计算能力未披露, 但推测应低于英伟达 A100。在智能计算的基础软件生态上,英伟达的 CUDA 软 件生态成熟完备,在该领域处于绝对领先地位,相对寒武纪、华为海思与英特尔 具备显著的优势;在智能计算市场份额与认知度上,英伟达的 GPU 产品仍处于 绝对领先地位,而公司、华为海思与英特尔的相关产品仍处于市场开拓期。

(2)基础系统软件技术。公司能为自有云端、边缘端、终端全系列智能芯片与处理器产品提供统一的平台 级基础系统软件和编程接口,公司自研的基础系统软件平台 Cambricon Neuware 彻底打破了云边端之间的开发壁垒,兼具高性能、灵活性和可扩展性 的优势,仅需简单移植即可让同一人工智能应用程序便捷高效地运行在公司云边 端系列化芯片/处理器产品之上。公司在基础系统软件方面各项核心技术的先进 性具体如下:

1) 编程框架适配与优化。公司在自有智能芯片产品之上研发的基础系统软件 Cambricon Neuware 可支 持各主流人工能编程框架,包括 TensorFlow、PyTorch、Caffe、MXNet 等。 开发者可直接基于主流编程框架为寒武纪云端、边缘端、终端各款智能芯片和处理器产品方便地编写应用,这显著降低了遗产代码迁移的成本,提升了人工智能 应用开发的速度,是公司云边端一体化生态体系的核心保障。为了高效支撑各类 人工智能编程框架,并针对公司芯片产品的特性拓展和优化已有的编程框架。公 司掌握的关键技术包括: ①解决编程框架高层算子和智能芯片底层 MLU 指令集间的语义匹配问题。 其中,计算图融合技术通过基于规则的子图匹配融合多种不同类型的计算, 能有效提升智能芯片对存储资源的利用率。 ②计算图并行技术通过算子间及算子内并行等方式充分利用智能芯片中充 裕的并行计算单元。 ③数据布局优化技术能从软件视角有效缓解智能芯片的访存带宽压力,提 升整体处理效率。 ④定点化训练技术通过自适应位宽量化机制实现了基于定点数据处理的人 工智能训练,突破了传统浮点训练的性能瓶颈,可大幅提升智能芯片用于训 练任务时的性能。

2) 智能芯片编程语言。公司成功研发智能芯片编程语言及其产品级编译器。公司研发的 BANG 语言不 仅支撑已有的以 C/C++语言编写的智能应用到智能芯片的快速移植,还通过语 言扩展进一步具备了对智能芯片的硬件特性进行精确描述的能力。具体而言, BANG 语言通过提供多种存储类型来描述智能芯片的存储资源;通过提供同步 及并行等操作来描述智能芯片的控制资源;通过提供多种数据类型以及计算原语 来描述智能芯片的计算资源。BANG 语言充分利用了智能芯片的硬件架构特性以 显著提升智能算法执行时的性能,并可在不改变用户编程习惯的前提下适应未来 新出现的智能算法,从系统软件角度赋予寒武纪系列智能芯片卓越的前瞻性和通 用性。同时,基于 BANG 语言开发的算子及应用能在公司云端、边缘端、终端 各款智能芯片和处理器产品方便地进行迁移,有力地支撑了寒武纪云边端一体化 生态体系。

3) 智能芯片编译器。公司研发了可将以 BANG 语言编写的程序编译成智能芯片底层指令集(MLU 指 令集)机器码的智能芯片编译器。公司在该方向上掌握了片内存储分配、自动软 件流水、全局指令调度等一系列关键技术:片内存储分配实现了对片内各类存储 资源的高效重复利用;自动软件流水实现了对并行计算资源的充分利用;全局指 令调度实现了对存储和计算资源的均衡利用。优化后的编译器自动生成的机器码 在性能上接近专家手工优化的代码,且开发效率提升了一个数量级以上,可大幅 降低在智能芯片上做应用开发的门槛。

4) 智能芯片高性能数学库。人工智能领域常见的推理和训练任务可以解构并归纳抽象为数百个基本数学算 子(如向量运算、卷积等)。公司在自有智能芯片上将这些基本数学算子预先作 了高效实现,形成了一套覆盖面广、性能优异的高性能数学库。目前,公司开发 的高性能数学库已经伴随着公司的处理器和芯片产品服务于过亿台智能终端和 服务器设备。公司在该方向上掌握了自动模板匹配、算子深度融合、静态片上存 储管理及多核架构自适应等一系列关键技术。其中,自动模板匹配实现了对复杂 手工优化指令模板的精准匹配,提升了处理效率;算子深度融合实现了多类复杂 算子的片上数据驻留与融合,大幅度降低了对片外访存带宽的需求;静态片上存 储管理实现了对变长片上存储访问的最优分配,能够显著提升对片上存储空间的 利用率;多核架构自适应使高性能数学库能快速适应硬件架构的多核扩展。基于 上述关键技术,公司研发的高性能数学库具有较高的访存有效利用率及最终运行 效率。

5) 智能芯片虚拟化软件。公司针对寒武纪系列智能芯片研发的虚拟化软件,可以将物理上的单个智能芯片 虚拟化为数量可配、规模可选且具有良好安全性和隔离性的虚拟智能芯片,以供 多个虚拟机或容器同时使用。公司在该方向上掌握了异构资源共享、热迁移及容 器支持等系列关键技术。其中,异构资源共享支持智能芯片上的计算、存储和编 解码等多种异构资源的共享,可以有效提升资源利用率;热迁移可以突破传统虚 拟化的瓶颈以支持灵活高效的任务迁移;容器支持则为数据中心提供了轻量级部 署和集群管理方案的支撑。基于上述关键技术,公司所研发的虚拟化软件不仅能 提供良好安全性和隔离性,还能保证服务质量,在各类人工智能应用负载上具有 良好的虚拟化性能。

6) 智能芯片核心驱动。公司研发的核心驱动程序是保证智能芯片在操作系统中高效运行的底层基础组 件。公司在该方向上掌握了多内存模型管理、异步任务调度及高效数据拷贝等一 系列关键技术。其中,多内存模型管理技术可以提升复杂异构架构下的内存访问 效率;异步任务调度可以提升多任务处理的吞吐率;高效数据拷贝可以提升主机 /设备间数据传输效率。基于上述关键技术的突破,公司研发的核心驱动可以支 撑不同计算和存储架构下数据的高效传输和多任务的高效运行,以统一的用户接 口支撑多种型号的智能芯片/处理器和各类型操作系统。

7) 云边端一体化开发环境。公司研发的云边端一体化开发环境,为公司云边端系列芯片提供统一的软件开发 工具链,支持程序员实现跨云边端硬件平台的人工智能应用开发,以“一处开发、 处处运行”的模式大幅提升跨平台开发效率和部署速度。公司在该方向上掌握了 如下关键技术:指令动态生成通过即时编译的方式,结合指定的硬件信息进行全 局数据流优化,实现在运行时生成面向硬件平台优化的指令流;跨平台环境模拟 通过细粒度调节处理器核的频率、访存带宽以及可用片上存储大小等参数,实现 了跨云边端平台的程序执行环境模拟;跨平台运行时通过软件计算逻辑和硬件运 算资源的解耦,保证了不同硬件平台上应用的快速灵活部署。

3. 智能计算集群系统优势显著

公司智能计算集群系统一般根据客户要求进行定制化开发,这样可以最大限度地 发挥思元系列芯片及加速卡产品的技术优势和特点,降低了客户使用和维护复杂 计算集群设备的难度和成本,将计算能力以云计算的形式输出,降低了用户开发、 部署智能应用的门槛,为智能应用程序的维护、升级提供了有力支持。同时,公 司智能计算集群系统具有实时监控系统运行状态、迅速定位系统异常、故障快速 恢复等优势,具有较强的市场竞争力。公司 CambriconNeuware 基础软件系统 平台还具备优秀的可扩展性,能有效支撑众多用户的智能计算需求,大幅提升智 能硬件的利用率,同时提升公司在人工智能数据中心市场的竞争力。 公司智能计算集群系统的核心是公司自研的思元系列智能芯片加速卡、基础系统 软件平台,以及智能计算集群管理系统。公司通过将自有云端智能芯片加速卡产 品与产业链其他厂商提供的服务器、存储设备和网络设备等硬件设施集成,为整 个计算集群提供智能计算能力支撑;以自研的 Cammbricon Neuware 基础系统 软件平台为基础,结合客户需求搭建定制化的应用管理平台,提供系统运维、资 源调度、应用管理等功能。 寒武纪智能计算集群、英伟达智能计算集群、华为智能计算集群,在可扩展性、 性能、能耗、延时和吞吐等指标上相对接近,均可满足集群中典型推理和训练任 务的需求。在能耗方面,三种智能计算集群均显著优于通用计算集群。

公司为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件 Cambricon Neuware(含软件开发工具链等),打破了不同场景之间的软件开发 壁垒,兼具高性能、灵活性和可扩展性的优势,无须繁琐的移植即可让同一人工 智能应用程序便捷高效地运行在公司云边端系列化芯片与处理器产品之上。在 Cambricon Neuware 的支持下,程序员可实现跨云边端硬件平台的人工智能应 用开发,以“一处开发、处处运行”的模式大幅提升人工智能应用在不同硬件平 台的开发效率和部署速度,同时也使云边端异构硬件资源的统一管理、调度和协 同计算成为可能。Cambricon Neuware 是公司打造云边端统一的人工智能开发 生态的核心部件。

Cambricon Neuware 包括编程框架适配包、智能芯片高性能数学库、智能芯片 编程语言、智能芯片编译器、智能芯片核心驱动、应用开发调试工具包和智能芯 片虚拟化软件等关键组件。在开发应用时,用户既可以基于 TensorFlow 和 PyTorch 等主流编程框架接口编写代码,也可以使用公司预先优化的智能芯片 高性能数学库对编程框架算子进行扩展或直接编写代码;用户同样可以通过智能 芯片编程语言(BANG 语言)对算子进行扩展或直接编写代码;智能芯片编译器 可以完成 BANG 语言到 MIU 指令的编译,并在智能芯片核心驱动的支持下使其 高效地运行于公司各款芯片产品之上。在开发过程中,用户还可以通过应用开发 调试工具包所提供的调试工具、性能剖析工具和系统监测工具等高效地进行应用 程序的功能调试和性能调优。此外,Cambricon Neuware 也可以通过智能芯片 虚拟化软件为云计算与数据中心场景提供关键支撑。目前,公司尚未对 Cambricon Neuware 进行单独销售,主要配合云端、边缘端和终端产品线的推 广和销售公司对于基础系统软件平台产品采取灵活的商业策略,可为大客户提供 定制化的系统软件开发服务等。

1) Cambricon Neuware 训练软件平台。训练软件平台支持基于主流开源框架原生分布式通信方式,同时也支持 Horovod 开源分布式通信框架,可实现从单卡到集群的分布式训练任务。支持 多种网络拓扑组织方式,并完整支持数据并行、模型并行和混合并行的训练方法。 训练软件平台支持丰富的图形图像、语音、推荐以及 NLP 训练任务。通过底层 算子库 CNNL 和通信库 CNCL,在实际训练业务中达到业界领先的硬件计算效率 和通信效率。同时提供模型快速迁移方法,帮助用户快速完成现有业务模型的迁 移。

2)推理加速引擎 MagicMind。MagicMind 是寒武纪全新打造的推理加速引擎,也是业界首个基于 MLIR 图编译 技术达到商业化部署能力的推理引擎。借助 MagicMind,用户仅需投入极少的 开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性 能。

MagicMind 是寒武纪全新打造的推理加速引擎,也是业界首个基于 MLIR 图编 译技术达到商业化部署能力的推理引擎。MagicMind 支持跨框架的模型解析、 自动后端代码生成及优化。用户使用 MLU、GPU 或者 CPU 训练好的算法模型, 借助 MagicMind 仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系 列产品上,并获得颇具竞争力的性能。 MagicMind 的优势在于不仅可以提供极 致的性能、可靠的精度以及简洁的编程接口,让用户能够专注于业务本身,无需 理解芯片更多底层细节就可实现模型的快速高效部署;与此同时,通过 MagicMind 插件化的设计,还可以满足在性能或功能上追求差异化竞争力的客 户需求。

4.立足高算力领域,受益 AI 全面开拓

公司所研发的通用型智能芯片产品,具备灵活的指令集和精巧的处理器架构,技 术壁垒高但应用面广,可覆盖人工智能领域高度多样化的应用场景(如视觉、语 音、自然语言理解、传统机器学习、生成式人工智能等)。与 CPU、GPU 等芯片相比,通用型智能芯片能够更好地匹配和支持人工智能算法中的关键运算操 作,在性能和功耗上存在显著优势。 公司核心人员在处理器芯片和人工智能领域深耕十余年,带领公司研发了智能处 理器指令集与微架构等一系列自主创新关键技术。公司凭借领先的核心技术,较 早实现了多项技术的产品化,例如推出全球首款商用终端智能处理器 IP 产品寒 武纪 1A、中国首款高峰值云端智能芯片思元 100 等。公司通过技术创新和设计 优化,持续提升产品的性能、能效和易用性,推动产品竞争力不断提升。

公司 AI 芯片技术国内领先,训练与推理产品全面布局。人工智能是计算机科学 的一个分支领域,通过模拟和延展人类及自然智能的功能,拓展机器的能力边界, 使其能部分或全面地实现类人的感知(如视觉、语音)、认知功能(如自然语言 理解),或获得建模和解决问题的能力(如机器学习等方法)。从技术角度看, 当前主流的人工智能算法通常可分为“训练”和“推理”两个阶段。训练阶段基 于充裕的数据来调整和优化人工智能模型的参数,使模型的准确度达到预期。人 工智能芯片是面向人工智能领域而专门设计的芯片,其架构和指令集针对人工智 能领域中的各类算法和应用作了专门优化,可高效支持视觉、语音、自然语言处 理和传统机器学习等智能处理任务。

1)思元 370 系列。思元 370 是寒武纪第三代云端产品,采用 7nm 制程工艺,是寒武纪首款采用 Chiplet 技术的人工智能芯片。思元 370 集成了 390 亿个晶体管,最大算力高达 256TOPS(INT8),是寒武纪第二代产品思元 270 算力的 2 倍。凭借寒武纪最新 智能芯片架构 MLUarch03,思元 370 实测性能表现更为优秀。思元 370 也是国 内第一款公开发布支持 LPDDR5 内存的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。搭载 MLU-Link™多芯互联技术,在分布式 训练或推理任务中为多颗思元 370 芯片提供高效协同能力。全新升级的寒武纪 基础软件平台,新增推理加速引擎 MagicMind,实现训推一体,大幅提升了开 发部署的效率,降低用户的学习成本、开发成本和运营成本。

思元 370 系列具有多项核心优势。思元 370 系列具有先进 Chiplet 技术、 MLUarch03 芯片架构、MagicMind 推理加速引擎、训推一体软件开发平台、低 功耗高带宽 LPDDR5 内存、新一代编解码单元、MLU-Link 多芯互联技术、为 AI 浮点计算优化等多个核心优势。

思元 370 智能芯片采用了先进的 Chiplet 芯粒技术,支持芯粒间的灵活组合,仅 用单次流片就达成了多款智能加速卡产品的商用。公司目前已推出 3 款加速卡: MLU370-S4、MLU370-X4、MLU370-X8,已与国内主流互联网厂商开展深入的 应用适配。MLU370-X8 采用双芯思元 370 配置,为双槽位 250w 全尺寸智能加 速卡,提供 24TFLPOS(FP32)训练算力和 256TOPS (INT8)推理算力,同时提供 丰富的 FP16、BF16 等多种训练精度。基于双芯思元 370 打造的 MLU370-X8整合了两倍于标准思元 370 加速卡的内存、编解码资源,同时 MLU370-X8 搭载 MLU-Link 多芯互联技术,每张加速卡可获得 200GB/s 的通讯吞吐性能,是 PCIe 4.0 带宽的 3.1 倍,支持单机八卡部署,可高效执行多芯多卡训练和分布式推理 任务。

2)思元 290 系列。寒武纪思元 290 芯片是寒武纪首颗 AI 训练芯片,采用创新性的 MLUv02 扩展架 构,使用台积电 7nm 先进制程工艺制造,在一颗芯片上集成了高达 460 亿的晶 体管。芯片具备多项关键性技术创新,MLU-Link™多芯互联技术,提供高带宽 多链接的互连解决方案;HBM2 内存提供 AI 训练中所需的高内存带宽;vMLU 帮助客户实现云端虚拟化及容器级的资源隔离。多种全新技术帮助 AI 计算应对 性能、效率、扩展性、可靠性等多样化的挑战。

市场全面拓展,产品逐步落地。2023 年,依托于智能芯片产品的技术领先优势, 公司智能芯片及加速卡持续在互联网、运营商、金融、能源等多个重点行业持续落地,并在业界前沿的大模型领域以及搜索、广告推荐等领域取得了长足的进步。 2023 年公司的智能芯片及加速卡实现收入 1.01 亿元。

在大模型领域,公司与国内头部的算法公司形成了紧密的技术和产品合作。在 视觉大模型领域,公司与智象未来达成了算力产品的合作以及视觉多模态大模型 的深度适配,寒武纪产品为其在线商业应用提供了算力保障。

在语言大模型领域,公司产品与百川智能等头部客户进行了大模型适配,并获 得了产品兼容性认证,产品性能亦达到国际主流产品水平。公司与客户正携手在 各行业垂直领域进行大模型应用探索与落地。

在互联网领域,公司产品在视觉、语音、自然语言等应用场景中持续出货,并 在搜索、广告推荐领域与头部互联网企业达成了产品深度适配及优化,产品性能 达到客户需求,为后续业务落地奠定了坚实的基础。

在金融领域,公司与多家大型银行进行了语言大模型的测试,并正在推动金融 领域的应用落地。目前交通银行已选择嵌入公司智能加速卡的 GPU 服务器为指 定选型。

在通信运营商行业,寒武纪依托集采入围,继续赋能运营商集团及下属省专公 司常用的人工智能业务。未来,寒武纪将持续助力三大运营商共同赋能更多业务 场景的人工智能应用落地,向“AI+”延伸拓展。

在其他垂直行业,公司的智能加速卡继续为传统产业智能化转型保驾护航,助 力智慧粮仓、智慧矿山、智慧物流等场景的业务落地。

参考报告

寒武纪研究报告:中国AI芯片巨头加速成长.pdf

寒武纪研究报告:中国AI芯片巨头加速成长。专注人工智能芯片领域,注重研发构筑护城河。寒武纪全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心技术。2023年公司凭借人工智能芯片产品的核心优势,拓展算力基础设施项目,深耕行业客户,实现营收7.09亿元,同比下滑2.70%;实现归母净利润-8.48亿元,同比亏损收窄。2024Q1实现营收0.26亿元,实现归母净利润-2.27亿元。公司聚焦云端大算力AI芯片核心赛道,持续推动产品迭代,技术壁垒不断巩固。公司发布股权激励计划,考核目标值24年营业收入值不低于11亿元,24-25年累计营业收入值不低于26亿元,24-26年累计营业收入值不低于4...

查看详情
相关报告
我来回答