如何看待寒武纪未来成长空间？

提问时间：2024/07/16
浏览次数：390
提问者：匿名用户
举报
分享微信 QQ 微博

如何看待寒武纪未来成长空间？

标签

寒武纪

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2024/07/16 11:02

壁垒深厚，未来可期.

1.云边端业务线协同发力，产品矩阵逐渐完善

公司是智能芯片领域全球知名的新兴公司，能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。公司掌握的智能处理器指令集、智能处理器微架构、智能芯片编程语言、智能芯片数学库等核心技术，具有壁垒高、研发难、应用广等特点。公司的主营业务是应用于各类云服务器、边缘计算设备、终端设备中人工智能核心芯片的研发、设计和销售，以及为客户提供丰富的芯片产品。目前，公司的主要产品线包括云端产品线、边缘产品线、IP 授权及软件。自 2016 年 3 月成立以来，公司快速实现了技术的产业化输出，先后推出了用于终端场景的寒武纪 1A、寒武纪 1H、寒武纪 1M 系列智能处理器；基于思元 100、思元 270、思元 290 芯片和思元 370 的云端智能加速卡系列产品；基于思元 220 芯片的边缘智能加速卡。其中，寒武纪智能处理器 IP 产品已集成于超过 1 亿台智能手机及其他智能终端设备中，思元系列产品也已应用于浪潮、联想等多家服务器厂商的产品中。思元 220 自发布以来，累计销量突破百万片。

云边端业务线协同发力。公司以云端芯片为业务核心，延伸至边缘产品线服务客户需求。基础系统软件平台打破不同场景之间的软件开发壁垒。智能计算集群系统业务核心算力来源是公司自研的云端智能芯片，聚焦人工智能技术在数据中心的应用，提供软硬件整体解决方案，以科学地配置和管理集群的软硬件、提升运行效率。

2.掌握智能芯片和基础系统软件领域核心技术

从系统角度看人工智能领域，智能芯片是最底层的硬件物质载体，提供了充裕的智能计算能力；基础系统软件位于智能芯片和人工智能程序之间，向下管理、调用和控制智能芯片、向上支撑人工智能程序的开发和运行。在通用型智能芯片及基础系统软件之上，开发者可以研发各类人工智能算法、实现各类人工智能程序，最终实现机器视觉、语音处理、自然语言处理以及推荐系统等多样化的人工智能功能。公司全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心技术，能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。公司不直接从事人工智能最终应用产品的开发和销售，但对各类人工智能算法和应用场景有着深入的研究和理解，能面向市场需求研发和销售性能优越、能效出色、易于使用的智能芯片及配套系统软件产品，支撑客户便捷地开展智能算法基础研究、开发各类人工智能应用产品。

（1）云端智能芯片。公司云端智能芯片主要以实体芯片或加速卡的形式应用于各类云服务器或数据中心中。根据公司招股说明书，公司在完成芯片设计的一系列复杂流程后，将最终的芯片版图交付给台积电进行晶圆代工，然后委托日月光或 Amkor 等厂商完成芯片的封装测试，再由电路板厂商使用芯片生产出加速卡（即包含智能芯片的电路板)，最后将加速卡销售给客户，这也是全球各大芯片设计企业常见的运营模式。云端智能芯片及加速卡需与服务器厂商生产的服务器整机产品进行适配，通过服务器厂商、OEM 厂商针对其功能和性能(如稳定性、运行速度和功耗等) 的全方位严格认证，才能进入大规模商用阶段。因此，研发此类产品不仅要攻克智能芯片架构等一系列核心技术难关，还要跨越各服务器厂商的高准入门槛。云端智能芯片性能方面，寒武纪、英伟达、华为海思研制的云端芯片产品都已采用 7nm 等先进工艺，在性能功耗比上较为接近。在峰值计算能力方面，英伟达凭借其 A100 占据了领先位置，高于寒武纪与华为海思的竞争产品；英特尔通过收购 HabanaLabs 获得了 Goya 和 Gaudi 两款产品，其峰值计算能力未披露，但推测应低于英伟达 A100。在智能计算的基础软件生态上，英伟达的 CUDA 软件生态成熟完备，在该领域处于绝对领先地位，相对寒武纪、华为海思与英特尔具备显著的优势；在智能计算市场份额与认知度上，英伟达的 GPU 产品仍处于绝对领先地位，而公司、华为海思与英特尔的相关产品仍处于市场开拓期。

（2）基础系统软件技术。公司能为自有云端、边缘端、终端全系列智能芯片与处理器产品提供统一的平台级基础系统软件和编程接口，公司自研的基础系统软件平台 Cambricon Neuware 彻底打破了云边端之间的开发壁垒，兼具高性能、灵活性和可扩展性的优势，仅需简单移植即可让同一人工智能应用程序便捷高效地运行在公司云边端系列化芯片/处理器产品之上。公司在基础系统软件方面各项核心技术的先进性具体如下：

1）编程框架适配与优化。公司在自有智能芯片产品之上研发的基础系统软件 Cambricon Neuware 可支持各主流人工能编程框架，包括 TensorFlow、PyTorch、Caffe、MXNet 等。开发者可直接基于主流编程框架为寒武纪云端、边缘端、终端各款智能芯片和处理器产品方便地编写应用，这显著降低了遗产代码迁移的成本，提升了人工智能应用开发的速度，是公司云边端一体化生态体系的核心保障。为了高效支撑各类人工智能编程框架，并针对公司芯片产品的特性拓展和优化已有的编程框架。公司掌握的关键技术包括： ①解决编程框架高层算子和智能芯片底层 MLU 指令集间的语义匹配问题。其中，计算图融合技术通过基于规则的子图匹配融合多种不同类型的计算，能有效提升智能芯片对存储资源的利用率。 ②计算图并行技术通过算子间及算子内并行等方式充分利用智能芯片中充裕的并行计算单元。 ③数据布局优化技术能从软件视角有效缓解智能芯片的访存带宽压力，提升整体处理效率。 ④定点化训练技术通过自适应位宽量化机制实现了基于定点数据处理的人工智能训练，突破了传统浮点训练的性能瓶颈，可大幅提升智能芯片用于训练任务时的性能。

2）智能芯片编程语言。公司成功研发智能芯片编程语言及其产品级编译器。公司研发的 BANG 语言不仅支撑已有的以 C/C++语言编写的智能应用到智能芯片的快速移植，还通过语言扩展进一步具备了对智能芯片的硬件特性进行精确描述的能力。具体而言， BANG 语言通过提供多种存储类型来描述智能芯片的存储资源；通过提供同步及并行等操作来描述智能芯片的控制资源；通过提供多种数据类型以及计算原语来描述智能芯片的计算资源。BANG 语言充分利用了智能芯片的硬件架构特性以显著提升智能算法执行时的性能，并可在不改变用户编程习惯的前提下适应未来新出现的智能算法，从系统软件角度赋予寒武纪系列智能芯片卓越的前瞻性和通用性。同时，基于 BANG 语言开发的算子及应用能在公司云端、边缘端、终端各款智能芯片和处理器产品方便地进行迁移，有力地支撑了寒武纪云边端一体化生态体系。

3）智能芯片编译器。公司研发了可将以 BANG 语言编写的程序编译成智能芯片底层指令集（MLU 指令集）机器码的智能芯片编译器。公司在该方向上掌握了片内存储分配、自动软件流水、全局指令调度等一系列关键技术：片内存储分配实现了对片内各类存储资源的高效重复利用；自动软件流水实现了对并行计算资源的充分利用；全局指令调度实现了对存储和计算资源的均衡利用。优化后的编译器自动生成的机器码在性能上接近专家手工优化的代码，且开发效率提升了一个数量级以上，可大幅降低在智能芯片上做应用开发的门槛。

4）智能芯片高性能数学库。人工智能领域常见的推理和训练任务可以解构并归纳抽象为数百个基本数学算子（如向量运算、卷积等）。公司在自有智能芯片上将这些基本数学算子预先作了高效实现，形成了一套覆盖面广、性能优异的高性能数学库。目前，公司开发的高性能数学库已经伴随着公司的处理器和芯片产品服务于过亿台智能终端和服务器设备。公司在该方向上掌握了自动模板匹配、算子深度融合、静态片上存储管理及多核架构自适应等一系列关键技术。其中，自动模板匹配实现了对复杂手工优化指令模板的精准匹配，提升了处理效率；算子深度融合实现了多类复杂算子的片上数据驻留与融合，大幅度降低了对片外访存带宽的需求；静态片上存储管理实现了对变长片上存储访问的最优分配，能够显著提升对片上存储空间的利用率；多核架构自适应使高性能数学库能快速适应硬件架构的多核扩展。基于上述关键技术，公司研发的高性能数学库具有较高的访存有效利用率及最终运行效率。

5）智能芯片虚拟化软件。公司针对寒武纪系列智能芯片研发的虚拟化软件，可以将物理上的单个智能芯片虚拟化为数量可配、规模可选且具有良好安全性和隔离性的虚拟智能芯片，以供多个虚拟机或容器同时使用。公司在该方向上掌握了异构资源共享、热迁移及容器支持等系列关键技术。其中，异构资源共享支持智能芯片上的计算、存储和编解码等多种异构资源的共享，可以有效提升资源利用率；热迁移可以突破传统虚拟化的瓶颈以支持灵活高效的任务迁移；容器支持则为数据中心提供了轻量级部署和集群管理方案的支撑。基于上述关键技术，公司所研发的虚拟化软件不仅能提供良好安全性和隔离性，还能保证服务质量，在各类人工智能应用负载上具有良好的虚拟化性能。

6）智能芯片核心驱动。公司研发的核心驱动程序是保证智能芯片在操作系统中高效运行的底层基础组件。公司在该方向上掌握了多内存模型管理、异步任务调度及高效数据拷贝等一系列关键技术。其中，多内存模型管理技术可以提升复杂异构架构下的内存访问效率；异步任务调度可以提升多任务处理的吞吐率；高效数据拷贝可以提升主机 /设备间数据传输效率。基于上述关键技术的突破，公司研发的核心驱动可以支撑不同计算和存储架构下数据的高效传输和多任务的高效运行，以统一的用户接口支撑多种型号的智能芯片/处理器和各类型操作系统。

7）云边端一体化开发环境。公司研发的云边端一体化开发环境，为公司云边端系列芯片提供统一的软件开发工具链，支持程序员实现跨云边端硬件平台的人工智能应用开发，以“一处开发、处处运行”的模式大幅提升跨平台开发效率和部署速度。公司在该方向上掌握了如下关键技术：指令动态生成通过即时编译的方式，结合指定的硬件信息进行全局数据流优化，实现在运行时生成面向硬件平台优化的指令流；跨平台环境模拟通过细粒度调节处理器核的频率、访存带宽以及可用片上存储大小等参数，实现了跨云边端平台的程序执行环境模拟；跨平台运行时通过软件计算逻辑和硬件运算资源的解耦，保证了不同硬件平台上应用的快速灵活部署。

3. 智能计算集群系统优势显著

公司智能计算集群系统一般根据客户要求进行定制化开发，这样可以最大限度地发挥思元系列芯片及加速卡产品的技术优势和特点，降低了客户使用和维护复杂计算集群设备的难度和成本，将计算能力以云计算的形式输出，降低了用户开发、部署智能应用的门槛，为智能应用程序的维护、升级提供了有力支持。同时，公司智能计算集群系统具有实时监控系统运行状态、迅速定位系统异常、故障快速恢复等优势，具有较强的市场竞争力。公司 CambriconNeuware 基础软件系统平台还具备优秀的可扩展性，能有效支撑众多用户的智能计算需求,大幅提升智能硬件的利用率，同时提升公司在人工智能数据中心市场的竞争力。公司智能计算集群系统的核心是公司自研的思元系列智能芯片加速卡、基础系统软件平台，以及智能计算集群管理系统。公司通过将自有云端智能芯片加速卡产品与产业链其他厂商提供的服务器、存储设备和网络设备等硬件设施集成，为整个计算集群提供智能计算能力支撑；以自研的 Cammbricon Neuware 基础系统软件平台为基础，结合客户需求搭建定制化的应用管理平台，提供系统运维、资源调度、应用管理等功能。寒武纪智能计算集群、英伟达智能计算集群、华为智能计算集群，在可扩展性、性能、能耗、延时和吞吐等指标上相对接近，均可满足集群中典型推理和训练任务的需求。在能耗方面，三种智能计算集群均显著优于通用计算集群。

公司为云边端全系列智能芯片与处理器产品提供统一的平台级基础系统软件 Cambricon Neuware（含软件开发工具链等)，打破了不同场景之间的软件开发壁垒，兼具高性能、灵活性和可扩展性的优势，无须繁琐的移植即可让同一人工智能应用程序便捷高效地运行在公司云边端系列化芯片与处理器产品之上。在 Cambricon Neuware 的支持下，程序员可实现跨云边端硬件平台的人工智能应用开发，以“一处开发、处处运行”的模式大幅提升人工智能应用在不同硬件平台的开发效率和部署速度，同时也使云边端异构硬件资源的统一管理、调度和协同计算成为可能。Cambricon Neuware 是公司打造云边端统一的人工智能开发生态的核心部件。

Cambricon Neuware 包括编程框架适配包、智能芯片高性能数学库、智能芯片编程语言、智能芯片编译器、智能芯片核心驱动、应用开发调试工具包和智能芯片虚拟化软件等关键组件。在开发应用时，用户既可以基于 TensorFlow 和 PyTorch 等主流编程框架接口编写代码，也可以使用公司预先优化的智能芯片高性能数学库对编程框架算子进行扩展或直接编写代码；用户同样可以通过智能芯片编程语言（BANG 语言）对算子进行扩展或直接编写代码；智能芯片编译器可以完成 BANG 语言到 MIU 指令的编译，并在智能芯片核心驱动的支持下使其高效地运行于公司各款芯片产品之上。在开发过程中，用户还可以通过应用开发调试工具包所提供的调试工具、性能剖析工具和系统监测工具等高效地进行应用程序的功能调试和性能调优。此外，Cambricon Neuware 也可以通过智能芯片虚拟化软件为云计算与数据中心场景提供关键支撑。目前，公司尚未对 Cambricon Neuware 进行单独销售，主要配合云端、边缘端和终端产品线的推广和销售公司对于基础系统软件平台产品采取灵活的商业策略,可为大客户提供定制化的系统软件开发服务等。

1） Cambricon Neuware 训练软件平台。训练软件平台支持基于主流开源框架原生分布式通信方式，同时也支持 Horovod 开源分布式通信框架，可实现从单卡到集群的分布式训练任务。支持多种网络拓扑组织方式，并完整支持数据并行、模型并行和混合并行的训练方法。训练软件平台支持丰富的图形图像、语音、推荐以及 NLP 训练任务。通过底层算子库 CNNL 和通信库 CNCL，在实际训练业务中达到业界领先的硬件计算效率和通信效率。同时提供模型快速迁移方法，帮助用户快速完成现有业务模型的迁移。

2）推理加速引擎 MagicMind。MagicMind 是寒武纪全新打造的推理加速引擎，也是业界首个基于 MLIR 图编译技术达到商业化部署能力的推理引擎。借助 MagicMind，用户仅需投入极少的开发成本，即可将推理业务部署到寒武纪全系列产品上，并获得颇具竞争力的性能。

MagicMind 是寒武纪全新打造的推理加速引擎，也是业界首个基于 MLIR 图编译技术达到商业化部署能力的推理引擎。MagicMind 支持跨框架的模型解析、自动后端代码生成及优化。用户使用 MLU、GPU 或者 CPU 训练好的算法模型，借助 MagicMind 仅需投入极少的开发成本，即可将推理业务部署到寒武纪全系列产品上，并获得颇具竞争力的性能。 MagicMind 的优势在于不仅可以提供极致的性能、可靠的精度以及简洁的编程接口，让用户能够专注于业务本身，无需理解芯片更多底层细节就可实现模型的快速高效部署；与此同时，通过 MagicMind 插件化的设计，还可以满足在性能或功能上追求差异化竞争力的客户需求。

4.立足高算力领域，受益 AI 全面开拓

公司所研发的通用型智能芯片产品，具备灵活的指令集和精巧的处理器架构，技术壁垒高但应用面广，可覆盖人工智能领域高度多样化的应用场景（如视觉、语音、自然语言理解、传统机器学习、生成式人工智能等）。与 CPU、GPU 等芯片相比，通用型智能芯片能够更好地匹配和支持人工智能算法中的关键运算操作，在性能和功耗上存在显著优势。公司核心人员在处理器芯片和人工智能领域深耕十余年，带领公司研发了智能处理器指令集与微架构等一系列自主创新关键技术。公司凭借领先的核心技术，较早实现了多项技术的产品化，例如推出全球首款商用终端智能处理器 IP 产品寒武纪 1A、中国首款高峰值云端智能芯片思元 100 等。公司通过技术创新和设计优化，持续提升产品的性能、能效和易用性，推动产品竞争力不断提升。

公司 AI 芯片技术国内领先，训练与推理产品全面布局。人工智能是计算机科学的一个分支领域，通过模拟和延展人类及自然智能的功能，拓展机器的能力边界，使其能部分或全面地实现类人的感知（如视觉、语音）、认知功能（如自然语言理解），或获得建模和解决问题的能力（如机器学习等方法）。从技术角度看，当前主流的人工智能算法通常可分为“训练”和“推理”两个阶段。训练阶段基于充裕的数据来调整和优化人工智能模型的参数，使模型的准确度达到预期。人工智能芯片是面向人工智能领域而专门设计的芯片，其架构和指令集针对人工智能领域中的各类算法和应用作了专门优化，可高效支持视觉、语音、自然语言处理和传统机器学习等智能处理任务。

1）思元 370 系列。思元 370 是寒武纪第三代云端产品，采用 7nm 制程工艺，是寒武纪首款采用 Chiplet 技术的人工智能芯片。思元 370 集成了 390 亿个晶体管，最大算力高达 256TOPS(INT8)，是寒武纪第二代产品思元 270 算力的 2 倍。凭借寒武纪最新智能芯片架构 MLUarch03，思元 370 实测性能表现更为优秀。思元 370 也是国内第一款公开发布支持 LPDDR5 内存的云端 AI 芯片，内存带宽是上一代产品的 3 倍，访存能效达 GDDR6 的 1.5 倍。搭载 MLU-Link™多芯互联技术，在分布式训练或推理任务中为多颗思元 370 芯片提供高效协同能力。全新升级的寒武纪基础软件平台，新增推理加速引擎 MagicMind，实现训推一体，大幅提升了开发部署的效率，降低用户的学习成本、开发成本和运营成本。

思元 370 系列具有多项核心优势。思元 370 系列具有先进 Chiplet 技术、 MLUarch03 芯片架构、MagicMind 推理加速引擎、训推一体软件开发平台、低功耗高带宽 LPDDR5 内存、新一代编解码单元、MLU-Link 多芯互联技术、为 AI 浮点计算优化等多个核心优势。

思元 370 智能芯片采用了先进的 Chiplet 芯粒技术，支持芯粒间的灵活组合，仅用单次流片就达成了多款智能加速卡产品的商用。公司目前已推出 3 款加速卡： MLU370-S4、MLU370-X4、MLU370-X8，已与国内主流互联网厂商开展深入的应用适配。MLU370-X8 采用双芯思元 370 配置，为双槽位 250w 全尺寸智能加速卡，提供 24TFLPOS(FP32)训练算力和 256TOPS (INT8)推理算力，同时提供丰富的 FP16、BF16 等多种训练精度。基于双芯思元 370 打造的 MLU370-X8整合了两倍于标准思元 370 加速卡的内存、编解码资源，同时 MLU370-X8 搭载 MLU-Link 多芯互联技术，每张加速卡可获得 200GB/s 的通讯吞吐性能，是 PCIe 4.0 带宽的 3.1 倍，支持单机八卡部署，可高效执行多芯多卡训练和分布式推理任务。

2）思元 290 系列。寒武纪思元 290 芯片是寒武纪首颗 AI 训练芯片，采用创新性的 MLUv02 扩展架构，使用台积电 7nm 先进制程工艺制造，在一颗芯片上集成了高达 460 亿的晶体管。芯片具备多项关键性技术创新，MLU-Link™多芯互联技术，提供高带宽多链接的互连解决方案；HBM2 内存提供 AI 训练中所需的高内存带宽；vMLU 帮助客户实现云端虚拟化及容器级的资源隔离。多种全新技术帮助 AI 计算应对性能、效率、扩展性、可靠性等多样化的挑战。

市场全面拓展，产品逐步落地。2023 年，依托于智能芯片产品的技术领先优势，公司智能芯片及加速卡持续在互联网、运营商、金融、能源等多个重点行业持续落地，并在业界前沿的大模型领域以及搜索、广告推荐等领域取得了长足的进步。 2023 年公司的智能芯片及加速卡实现收入 1.01 亿元。

在大模型领域，公司与国内头部的算法公司形成了紧密的技术和产品合作。在视觉大模型领域，公司与智象未来达成了算力产品的合作以及视觉多模态大模型的深度适配，寒武纪产品为其在线商业应用提供了算力保障。

在语言大模型领域，公司产品与百川智能等头部客户进行了大模型适配，并获得了产品兼容性认证，产品性能亦达到国际主流产品水平。公司与客户正携手在各行业垂直领域进行大模型应用探索与落地。

在互联网领域，公司产品在视觉、语音、自然语言等应用场景中持续出货，并在搜索、广告推荐领域与头部互联网企业达成了产品深度适配及优化，产品性能达到客户需求，为后续业务落地奠定了坚实的基础。

在金融领域，公司与多家大型银行进行了语言大模型的测试，并正在推动金融领域的应用落地。目前交通银行已选择嵌入公司智能加速卡的 GPU 服务器为指定选型。

在通信运营商行业，寒武纪依托集采入围，继续赋能运营商集团及下属省专公司常用的人工智能业务。未来，寒武纪将持续助力三大运营商共同赋能更多业务场景的人工智能应用落地，向“AI+”延伸拓展。

在其他垂直行业，公司的智能加速卡继续为传统产业智能化转型保驾护航，助力智慧粮仓、智慧矿山、智慧物流等场景的业务落地。

参考报告

寒武纪研究报告：中国AI芯片巨头加速成长.pdf

寒武纪研究报告：中国AI芯片巨头加速成长。专注人工智能芯片领域，注重研发构筑护城河。寒武纪全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心技术。2023年公司凭借人工智能芯片产品的核心优势，拓展算力基础设施项目，深耕行业客户，实现营收7.09亿元，同比下滑2.70%；实现归母净利润-8.48亿元，同比亏损收窄。2024Q1实现营收0.26亿元，实现归母净利润-2.27亿元。公司聚焦云端大算力AI芯片核心赛道，持续推动产品迭代，技术壁垒不断巩固。公司发布股权激励计划，考核目标值24年营业收入值不低于11亿元，24-25年累计营业收入值不低于26亿元，24-26年累计营业收入值不低于4...

查看详情

如何看待寒武纪未来成长空间？

1.云边端业务线协同发力，产品矩阵逐渐完善

2.掌握智能芯片和基础系统软件领域核心技术

3. 智能计算集群系统优势显著

4.立足高算力领域，受益 AI 全面开拓

寒武纪研究报告：中国AI芯片巨头加速成长.pdf

寒武纪经营看点在哪？

寒武纪产品矩阵、业务模式、股权结构与营收如何？

寒武纪核心业务、营收及股权结构介绍

寒武纪主要产品、管理层及财务分析

寒武纪核心看点在哪？

寒武纪发展历程、管理层及技术进展如何？

寒武纪产品矩阵、股权结构及财务分析

寒武纪股权结构、营收、核心竞争力及产品线梳理

寒武纪主要产品及经营看点在哪？

寒武纪主营业务、发展历程及经营分析

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王