寒武纪经营看点在哪?

寒武纪经营看点在哪?

最佳答案 匿名用户编辑于2025/07/09 10:45

硬件筑基+软件赋能,造就国产 AI 芯片领跑者。

1.云、边、端全栈布局,赋能训练与推理全场景

(1)从硬件层面看,公司在云、边、端三大场景都有芯片产品布局。AI 芯片按照应用 场景的不同可分为云端、边缘端和终端三类,云端主要是指云计算数据中心等场景,边缘端 主要指智能制造、智能家居、智慧交通、智能驾驶等场景,终端则是各类消费电子、IoT 产 品等,上述场景对应硬件的算力和功耗需求都有所不同,总体来说云端 AI 芯片需求的算力 和对应功耗较高,边缘端次之,终端对于算力和功耗的要求较低。公司面向云、边、端三大 场景分别研发了三种类型的芯片产品,分别为云端智能芯片及加速卡、边缘智能芯片及加速 卡和终端智能处理器 IP。

(2)公司云端产品线包含云端智能芯片及加速卡、训练整机。云端智能芯片及加速卡 需与服务器整机产品进行适配,通过服务器厂商、OEM 厂商针对其功能和性能的全方位严 格认证再进入大规模商用阶段,公司除了要攻克智能芯片架构等一系列核心技术难关,还要 跨越各服务器厂商的高准入门槛。训练整机主要提供计算集群中的单体训练服务器,由公司 自研云端智能芯片及加速卡提供核心计算能力,且整机亦是公司自研的服务器产品。

1)云端 AI 芯片方面,公司已经迭代发布了四代产品以及其对应加速卡,思元 370 最 大算力达 256TOPS(INT8),集推理训练为一体,MLU370-X8 单卡性能与主流 350W RTX GPU 相当,思元 590 有望成为新的营收支撑。思元 100 芯片于 2018 年发布,是中国首款 高峰值云端智能芯片。思元 270 在前一代基础上升级了指令集和芯片架构,是公司首款云端 训练智能芯片,思元 290 芯片工艺为台积电 7nm 制程工艺,可高效支持分布式、定点化的 人工智能训练任务,2021 年,公司发布了“推训一体”的思元 370,是公司首款采用 Chiplet (芯粒)技术的人工智能芯片(支持芯粒间的灵活组合,仅用单次流片就达成了多款智能加 速卡产品的商用),芯片最大算力高达 256TOPS(INT8),是思元 270 算力的 2 倍。同时,思 元 370 芯片支持 LPDDR5 内存,内存带宽是思元 270 的 3 倍,可在板卡有限的功耗范围内 给人工智能芯片分配更多的能源,输出更高的算力。通过在 Cambricon NeuWare SDK 上实 测,在常见的 4 个深度学习网络模型上,MLU370-X8 单卡性能与主流 350W RTX GPU 相 当。从客户层面看,公司已与互联网、金融、通信、交通等多个行业客户展开合作,与头部 AI 大模型进行适配,并在各行业垂直领域进行大模型应用探索与落地。目前新一代思元 590 芯片已进入国产供应链,实测训练性能较在售产品有了显著提升,它提供了更大的内存容量 和更高的内存带宽,其 PCle 接口也较上代实现了升级,有望成为公司新的营收支撑。

2)目前寒武纪发布了玄思 1000、1001 智能加速器整机,机箱内集成了多颗思元智能 芯片。玄思 1000 智能加速器整机在 2U 机箱内集成了 4 颗思元 290 智能芯片,2 台玄思 1000 加速器与 CPU 服务器可组成一套包括 8 张加速卡的整机系统,可实现 AI 算力多向扩 展,满足性能、扩展性、灵活性、鲁棒性的要求。2022 年发布的玄思 1001 智能加速器在 2U 机箱内集成 4 张 MLU370-M8 智能加速卡,MLU-Link 互联接口,实现智能算力在数据中心 纵向扩展,可广泛支持 FP16、FP32 等不同数据精度的智能算力,提供大容量内存,支撑智 能模型的分布式训练需求,是智能算力的高集成度平台,已在生物信息、医疗影像、语言模 型等行业及科研场景广泛应用。

(3)公司的智能计算集群系统业务提供全集群搭建和管理服务,主要面向有一定技术 基础的商业客户群体,国内市占率位于第一梯队。对于有人工智能计算能力建设的客户来说, 部分客户选择单独采购云端智能芯片加速卡并将其自行集成至现有建设完毕的计算集群中, 但部分客户则更希望公司能够提供定制化的软硬件整体解决方案,以科学地配置和管理集群 的软硬件、提升运行效率。2021 年公司中标昆山智能计算中心等项目,公司已经陆续在西 安沣东、珠海横琴、江苏南京、江苏昆山拓展了智能计算集群系统业务,国内市占率处在第 一梯队;2022 年公司中标南京智能计算中心项目(二、三期)智能计算设备(二期)项目, 以玄思 1001 智能加速器作为核心算力单元之一,集成配套软硬件,最终形成智能计算集群 系统交付给客户;2023 年公司积极参与台州、沈阳两地的算力基础设施建设项目并交付相 关智能计算集群系统。

(4)边缘端产品方面,公司围绕思元 220 芯片推出了相应加速卡及智能模组,面向 AI 边缘推理任务。边缘计算通过在终端和云端之间的设备上配备适度的计算能力,可有效弥补 终端设备计算能力不足的劣势,同时能够缓解云计算场景下数据安全、隐私保护、带宽与延 时等潜在问题。边缘计算范式和 AI 技术的结合将推动智能制造、智能零售、智能教育、智 能家居、智能电网、智能交通等众多领域的高速发展。公司于 2019 年推出了边缘智能芯片 思元 220 及相应的 M.2 加速卡,思元 220 基于台积电 16nm 工艺,在 1GHz 的主频下,理 论峰值性能为 32TOPS(INT4)、16TOPS(INT8)、8TOPS(INT16),芯片典型功耗小于 10W, 支持视觉、语音、自然语言处理以及传统机器学习等多样化的 AI 应用。同时公司推出了 MLU220-SOM 智能模组,基于信用卡大小的模组上可以实现 16TOPS AI 算力的单系统解 决方案,功耗仅为 15W。

(5)终端产品方面,公司先后推出了寒武纪 1A、1H、1M 系列芯片,覆盖 0.5TOPS8TOPS 内不同档位的 AI 算力需求,可集成于手机或 IoT 类 SoC 芯片中,从而快速获得在 终端做 AI 本地处理的能力。公司终端智能处理器产品主要以 IP 授权形式于智能终端设备 中,即将已完成逻辑设计或物理设计的芯片功能模块(如处理器、DRAM 接口等)以商业授 权的形式交付给客户使用,允许客户将其集成在自己的芯片设计版图中,并通过流片形成最 终芯片产品。公司收费模式包括固定费用(许可技术通过验收后,许可产品正式出货前,按 照授权许可实施进度分阶段收取相应费用)和提成费用(被授权方量产芯片并销售许可产品 后的每个季度末,按照许可产品的累计销售数量所在区间分标准收取相应费用),因此该项 业务基本不产生对应成本。目前已有多家国内著名芯片设计公司获得了公司终端智能处理器 的商业 IP 授权,迄今已集成于上亿台智能手机及其他智能终端设备中。

2.基础系统软件平台&自研架构与指令集构建护城河

(1)在提供硬件的同时,公司也为云、边、端全系列智能芯片与处理器产品提供统一 的平台级基础系统软件 Cambricon Neuware(包含软件开发工具链等)。Cambricon Neuware 打破了不同场景之间的软件开发壁垒,兼具高性能、灵活性和可扩展性的优势,无 须繁琐的移植即可让同一 AI 应用程序便捷高效地运行在公司云边端系列化芯片与处理器产 品之上。在 Cambricon Neuware 的支持下,程序员可实现跨云边端硬件平台的 AI 应用开 发,大幅提升 AI 应用在不同硬件平台的开发效率和部署速度,同时也使云边端异构硬件资 源的统一管理、调度和协同计算成为可能。

(2)公司软件平台可分为训练软件平台和推理软件平台。(1)训练软件平台方面,公 司拥抱开源生态,研发了兼具高性能和通用性的训练软件栈,原生支持业界的开源框架 Pytorch 和 Tensorflow,对两个框架都提供了完善的基础设施支持,包括原生 Profiler 和原 生的分布式训练支持,用户基于开源框架的模型代码可以快速完成迁移。截至 2024 年底, 公司持续投入在大规模分布式训练软件平台的研发,迭代更新了 Megatron、Transformer Engine 等主流分布式训练组件,使训练软件平台能够支撑主流的大模型分布式训练需求, 降低新模型的适配周期,同时增加了对 DeepSeek 系列、Llama 系列、Qwen 系列等主流大 模型训练的支持。(2)推理软件平台方面,公司于 2021 年发布全新推理加速引擎 MagicMind, 是业界首个基于 MLIR 图编译技术达到商业化部署能力的推理引擎。借助 MagicMind,用户 仅需投入极少的开发成本,即可将推理业务部署到公司全系列产品上。截至 2024 年底,在 大模型适配方面,推理软件平台成功支持并优化了 DeepSeek 系列、Llama 系列、Qwen 系 列等主流文生文模型,以及 Flux、hunyuanvideo、cogvideox 等多模态模型。

(3)公司云端、边缘端、终端的所有智能芯片和处理器 IP 产品以及基础系统软件均基 于自研处理器架构,且均构建于自研的 MLU 指令集基础之上,有助于保持核心技术的自主 可控。思元 590 将采用 MLUarch05 全新架构。通用型智能芯片及其基础系统软件的研发需 要全面掌握核心芯片与系统软件的大量关键技术,技术难度大、涉及方向广,是一个极端复 杂的系统工程,其中处理器微架构与指令集两大类技术属于最底层的核心技术。(1)智能处 理器微架构方面,目前公司已自主研发了四代智能处理器微架构(MLUarch00、MLUarch01、 MLUarch02 和 MLUarch03),其中思元 370 基于 MLUarch03 计算架构,思元 590 将采用 MLUarch05 全新架构。(2)指令集是处理器芯片生态的基石,公司是国际上最早开展智能 处理器指令集研发的少数几家企业之一,自 2016 年来已自主研发了四代商用智能处理器指 令集(MLUv00、MLUv01、MLUv02 和 MLUv03),同一套指令集能够同时支持 AI 训练和 推理任务,适用于云端、边缘端、终端不同场景不同类型的智能芯片,支撑公司构建云边端 一体化、训练推理融合的基础系统软件平台和具有公司特色的 AI 新生态。截至 2024 年末, 公司新一代智能处理器微架构和指令集正在研发中,将对自然语言处理大模型、视频图像生 成大模型以及垂直类大模型的训练推理等场景进行重点优化,将在编程灵活性、易用性、性 能、功耗、面积等方面提升产品竞争力。

参考报告

寒武纪研究报告:云边端共铸国产算力脊梁,软硬件同迎寒武破晓时代.pdf

寒武纪研究报告:云边端共铸国产算力脊梁,软硬件同迎寒武破晓时代。寒武纪是国内稀缺的云端AI芯片厂商,提供云边端一体、软硬件协同、兼顾训练与推理的系列化智能AI芯片产品和平台化基础系统软件。公司业务主要分为云端产品线、边缘产品线、IP授权及软件三块,产品面向互联网、金融、交通、能源、电力和制造等领域的复杂AI应用场景提供算力,赋能产业升级。云端产品线主要提供云端AI芯片、加速卡、训练整机等,涵盖模型训练与推理,目前已迭代至思元590系列;边缘产品线以思元220为主,主要服务于智能制造、智能家居等边缘计算场景;IP授权及软件主要包括以寒武纪1M为主的终端智能处理器IP以及基础软件开发平台Cambr...

查看详情
相关报告
我来回答