2023年AI芯片行业专题报告：独立自主的AI系统级计算平台是国产AI芯片构建生态壁垒的关键

来源：广发证券
发布时间：2023/08/24
浏览次数：1480
举报

相关深度报告REPORTS

AI 芯片行业专题报告：独立自主的AI系统级计算平台是国产AI芯片构建生态壁垒的关键.pdf

AI芯片行业专题报告：独立自主的AI系统级计算平台是国产AI芯片构建生态壁垒的关键。系统级AI计算平台是提升AI芯片算力利用率，培养用户生态的关键。影响AI芯片计算能力的因素除了硬件层面的芯片制程、内存、带宽等，还包括调用各硬件资源的系统级软件计算平台。AI芯片厂商开发的系统计算平台不仅仅有效提升各家AI芯片产品的算力利用率，还为各类AI应用开发提供了丰富的函数库，提供开发者简便易用的开发环境。英伟达的CUDA计算平台是主流AI应用开发平台。通过对比各公司开发的AI计算平台，我们发现英伟达的CUDA开发时间最早，积累的开发者数量最多。英伟达一方面依靠AI芯片优异的硬件性能快速获客，另一方面持续...

一、AI 芯片的系统计算平台是用户生态培育的关键

系统级AI计算平台是提升AI芯片算力利用率，培养用户生态的关键。影响AI芯片计算能力的因素除了硬件层面的芯片制程、内存、带宽等，还包括调用各硬件资源的系统级软件计算平台。AI芯片厂商开发的系统计算平台不仅仅有效提升各家AI芯片产品的算力利用率，还为各类AI应用开发提供了丰富的函数库，提供开发者简便易用的开发环境。以英伟达为例，其开发的CUDA平台，自2007年推出后持续更新，已吸引了大量AI应用开发者使用，形成了庞大的用户生态。此篇报告将深入分析各厂商开发的AI计算平台的功能、效果并前瞻分析未来的发展趋势。

（一）CUDA：释放英伟达 GPU 算力的系统级 AI 计算平台

英伟达开发的CUDA系统计算框架构建了GPU和开发者之间的桥梁。CUDA （Compute Unified Device Architecture）是英伟达公司于2007年推出用于释放GPU 并行计算能力和增强通用性的系统级计算平台。CUDA直接对接GPU的物理层，将海量数据分配给多个线程上分别处理，再调用GPU的多核心（计算单元）进行并行计算。为方便开发者更好的调用GPU的计算能力，CUDA也提供了一系列封装好的函数库和API，可在芯片物理层上实现指令级和算子的直接调用。总体而言，CUDA 一方面可高效利用底层AI芯片的算力，另一方面给予开发者便捷的开发环境，满足了开发者高效利用AI底层算力的需求。

CUDA不仅仅是AI算法开发的工具链，还是调用底层计算资源的系统平台。与一般的软件工具不同，CUDA是更加贴近芯片物理层的系统平台，其提供的封装函数可以实现对于内存、计算单元（算术逻辑单元）、数据传输速率（带宽）等底层算力资源的调用。因此，CUDA在设计之初的产品定位是给程序员提供对于硬件性能优化和调试的功能。后续，随着CUDA版本的升级迭代，其对于底层硬件资源调用能力持续增强。例如，CUDA 5.0版本中新增的动态并行技术，可以根据数据处理量在内核中动态调用多条线程，减少单一线程上的工作负载，从而保证了不同线程上的负载均衡。

CUDA提供了易用友好的开发环境。CUDA提供了丰富的库函数和工具，方便程序员对于各类AI算法进行开发。经过多年的拓展，CUDA不仅兼容主流的AI训练框架（Tensorflow、Pytorch等），对各类AI算法（DLRM、Resnet-50、BERT等）的覆盖面也更加广阔。通过CUDA，程序员可以高效利用GPU的大规模并行计算能力来加速各种计算密集型任务，包括图像和视频处理、物理模拟、金融分析、生命科学等领域。我们认为，CUDA经过长期积累可提供对于各类AI算法开发的函数库和工具链更加丰富，对各类算法覆盖面更加广泛，在易用性方面具有一定优势。

CUDA与英伟达AI芯片强绑定，随着AI芯片迭代而持续升级。英伟达在每一代芯片架构升级的过程中，添加了一些新的特性来提升对于AI算法的计算效率。针对这些新的特性，CUDA也不断丰富SDK中的函数库从软件层面进一步对AI算法进行加速。例如，英伟达在2017年推出Volta架构AI芯片产品的时候首次引入了Tensor Core，其将单一维度的数字运算扩展到二维度的矩阵运算，从而提升单次运算能力。在软件层面，CUDA 9.0版本则新增了各类矩阵运算操作符，对于矩阵的加载、相乘、累加都有很好的处理效果。因此，用户可以通过CUDA更好的发挥硬件层面的新特性，从而扩展产品的应用场景。

CUDA构建了英伟达长而深的生态护城河。英伟达针对数据中心场景的大数据和AI 功能的开发起步早，积累深厚。自2007年，英伟达推出CUDA以来，至今已迭代了 12个版本。在多年市场推广下，CUDA已成为AI算法开发主流的系统平台，具有较高的生态壁垒。截止2023年4月，海内外主要科技公司超过百万的开发人员都是基于CUDA开发AI算法。硬件层面的架构升级吸引用户采购新一代AI芯片更新换代，软件层面丰富的工具和易用的开发环境则培养了用户粘性。在长期的积累下，CUDA 形成的生态壁垒较好的巩固英伟达的市场份额和龙头地位。

（二）CANN：华为拓展昇腾 AI 芯片生态的关键

CANN（Compute Architecture for Neural Networks）是华为针对AI场景推出的异构计算架构。CANN构建了从上层深度学习框架到底层AI芯片的桥梁，提供多层次的编程接口，全面支持昇思MindSpore、飞桨PaddlePaddle、PyTorch、TensorFlow、 Caffe等主流AI框架，提供900多种优选模型覆盖众多典型场景应用，兼容多种底层硬件设备，提供异构计算能力，支持用户快速构建基于昇腾平台的AI应用。

计算架构方面，CANN被抽象为五大层级，分别为计算语言接口、计算服务层、计算编译引擎、计算执行引擎和计算基础层，共同构建高效而简捷的计算平台。CANN 的优势是兼容性较强，可在不同的硬件、OS和AI开发框架的异构环境中发挥较好的计算性能，实现端边云多设备的协同，赋能各场景的AI开发。

CANN是系统级计算平台，位于物理层和基础软件层之间。CANN根据应用于不同场景中具体的算法需求，为开发者提供了可调用的计算资源以及可操作的功能模块，具体包括超过1200个算子、统一编程接口AscendCL、ModelZoo模型库以及图编译器等。CANN提供了从底层算子、模型开发再到上层应用全流程的开发工具，可覆盖全场景应用，方便开发者快速开发各类算法。作为华为昇腾AI基础软硬件平台的核心，CANN在面向底层硬件资源的调用、面向开发者的工具模块以及面向生态伙伴的接口等方面都有较好设计和提升，其具体特点包括： 1. 简便开发：针对多样化应用场景，统一编程接口AscendCL适配全系列硬件，助力开发者快速构建基于昇腾平台的AI应用和业务。 2. 性能优化：通过自动流水、算子深度融合、智能计算调优、自适应梯度切分等核心技术，软硬件协同优化，提升AI芯片的算力利用率。 3. 开放生态：丰富的高性能算子库和优选ModelZoo模型库，吸引各领域的开发者共建生态。

CANN提供算子层面多种开发方式，开发者对AI芯片功能拓展更具灵活性。算子通常是AI芯片的核心部件，其包含各种不同类型的运算操作符，如矩阵乘法、卷积、池化、非线性激活等。CANN提供开发者在算子层面可编程的能力。针对不同算法特点，开发者可以从更加底层修改资源调度方式，从而降低神经网络的计算复杂度和时间开销，提高模型的训练速度和精度。

CANN提供的高性能算子库有效提高训练和推理阶段的计算效率。算子库在AI模型的训练和推理阶段都有重要功能和作用。在AI训练过程中，卷积算子、全连接算子、批量归一化算子等对于神经网络的训练过程需要大量的矩阵乘法和复杂的数学运算有很好性能满足，可以显著提高训练速度和效率。在AI推理过程中，卷积算子、池化算子、激活算子等则可用于加速神经网络的推断，减少响应时间。开发者基于 CANN提供的支持包括TensorFlow、Pytorch、Mindspore、Onnx框架在内超过1200 个高性能算子，帮助开发者有效提升训练和推理的计算效率。

CANN为开发者提供的可调用的API更加灵活。针对场景复杂度不同，CANN提供的 API接口分为多个层级。多层级的API的设计使得开发者在高效和易用之间有可选择的灵活度。API级数越低，自由度越高，更易于表达复杂场景所需功能；级数越高，接口的封装度越高，更易于表达常用语义，使用更简单。此外，华为针对算子开发场景自研了Ascend C编程语言，通过多层接口抽象使得算子的开发过程更加简洁和高效，自动并行计算则充分利用了硬件的并行计算能力，提升了算子的计算性能，而孪生调试技术为开发者提供了方便的调试环境，帮助用户更快地发现和解决问题。通过这些关键技术，Ascend C助力AI开发者在低成本下完成算子开发和模型调优部署。它使得算子开发过程更加高效和便捷，为AI开发者提供了强有力的工具和支持，让他们能够更专注于算法和模型的优化，从而取得更好的成果。

（三）Neuware：寒武纪实现训练推理一体化的 AI 计算平台

寒武纪Cambricon Neuware是针对其云、边、端的AI芯片打造的软件开发平台。为了加快用户端到端业务落地的速度，减少模型训练研发到模型部署之间的繁琐流程，Neuware整合了训练和推理的全部底层软件栈，包括底层驱动、运行时库（CNRT）、算子库（CNNL）以及工具链等，将Neuware和深度学习框架Tensorflow、 Pytorch深度融合，实现训推一体。依托于Cambricon Neuware，开发者可完成从云端到边缘端、从模型训练到推理部署的全部流程，提升AI芯片的算力利用率。

Neuware提供了全面的AI算法开发工具。Neuware包括编程框架适配包、智能芯片高性能数学库、智能芯片编程语言、智能芯片编译器、智能芯片核心驱动、应用开发调试工具包和智能芯片虚拟化软件等关键组件。在开发应用时，用户既可以基于 TensorFlow和PyTorch等主流编程框架接口编写代码，也可以通过公司自研的 BANG编程语言对算子进行扩展或直接编写代码。智能芯片编译器可以完成BANG 语言到MLU指令的编译，使得AI算法各项指令高效地运行于思元系列AI芯片上。在开发过程中，用户还可以通过应用开发调试工具包所提供的调试工具、性能剖析工具和系统监测工具等高效地进行应用程序的功能调试和性能调优。此外，Neuware 也可以通过智能芯片虚拟化软件为云计算与数据中心场景提供关键支撑。

训练任务方面，Neware的训练软件平台拥有多项强大特性，为用户提供高效且灵活的训练环境。（1）首先，平台支持主流开源框架原生分布式通信方式以及Horovod开源分布式通信框架，使用户能够轻松实现从单卡到集群的分布式训练任务。多种网络拓扑组织方式的支持，使得用户可以根据需求灵活地选择适合的分布式训练方式，包括数据并行、模型并行和混合并行的训练方法。（2）其次，训练软件平台提供丰富的训练任务支持，涵盖图形图像、语音、推荐以及NLP等多个领域。用户可以在一个统一的平台上完成各类训练任务，极大地简化了训练流程，提高了开发效率。另外，通过底层算子库CNNL和通信库CNCL，训练软件平台在实际训练业务中达到了业界领先的硬件计算效率和通信效率。这意味着用户可以获得更快的训练速度和更高的计算性能，从而加速模型的训练过程。（3）最后，训练软件平台提供了模型快速迁移方法，帮助用户快速完成现有业务模型的迁移。这为用户节省了大量的时间和工作，让他们能够更快地将已有模型应用到新的平台上，提高了平台的易用性和适配性。

推理任务方面，寒武纪自研的MagicMind推理引擎对主流推理场景应用加速效果较好。2021年底，公司将Neuware架构升级了一个新的模块，MagicMind推理引擎。 MagicMind推理引擎支持跨框架的模型解析、自动后端代码生成及优化，可帮助用户在MLU、GPU、CPU训练好的算法模型上，降低用户的研发成本，减少将推理业务部署到寒武纪AI加速卡产品上。此外，MagicMind和深度学习框架Tensorflow、 Pytorch深度融合，使得用户可以无缝地完成从模型训练到推理部署的全部流程，进行灵活的训练推理业务混布和潮汐式的业务切换，可快速响应业务变化，降低运营成本。MagicMind的特点包括： 1. 训练到推理的无缝衔接：MagicMind和人工智能框架TensorFlow，PyTorch深度融合，模型训练到推理一键部署。 2. 多种计算精度支持：支持FP32、FP16、INT16、INT8等多种计算精度，支持用户指定不同层级计算精度以及定义量化方法细节。 3. 原生支持动态张量输入：具有完备动态张量表达能力，原生支持任意数据规模的动态张量输入。 4. 丰富的调试调优工具：丰富的调试调优工具以及相应的文档和指引，便利的调试调优体验。

（四）ROCm：为海光 DCU 提供高兼容性的 AI 计算平台

海光DCU全面兼容ROCm GPU计算生态。ROCm（Radeon Open Compute Platform）是AMD基于开源项目的GPU计算生态系统，支持多种编程语言、编译器、库和工具，以加速科学计算、人工智能和机器学习等领域的应用。ROCm还支持多种加速器厂商和架构，提供了开放的可移植性和互操作性。海光的DCU兼容ROCm 生态的特性使得其得到国际主流商业计算平台生态系统和社区的支持，可以利用现有的AI平台和共享计算资源，快速实现模型训练和推理的性能提升，短期内有利于其DCU产品的推广。

在架构层面，ROCm与CUDA相似度较高。ROCm和CUDA在生态、编程环境等方面具有高度的相似性，两者能很好地兼容兼容，因此ROCm也被称为“类CUDA”。ROCm为了更好的兼容CUDA，其实现了源码级的对CUDA程序的支持。AMD团队不仅推出了与CUDA API高度类似的“HIP”工具集（Heterogeneous-compute Interface for Portability），使得AI算法工程师在编写ROCm的代码风格上与CUDA 尽量贴近，还提供了Rocblas（类似于Cublas）、Hcsparse（类似于Cusparse）等一系列CUDA生态函数库的替代版本。CUDA用户可以以较低代价快速迁移至ROCm 平台。

ROCm已实现包括函数接口、编译器和函数库等各方面对CUDA的兼容。API函数接口方面，开发者可以在HIP里得到与CUDA类似的编程语法和大量API指令集，以类似CUDA的风格为AMD GPU编程。函数库方面，ROC库提供了实现常用AI算法的功能，允许开发人员使用类似于CUDA的函数，便捷开发支持ROCm的AI应用。最后在编译环节，HCC（Heterogeneous Compute Compiler）也是对应CUDA的NVCC 的编译器。ROCm实现了对CUDA的全面兼容，使得原本为CUDA编写的代码可以在 ROCm平台上重新编译和运行，从而在AMD GPU上实现GPU加速计算。

英伟达的CUDA计算平台是主流AI应用开发平台。通过对比各公司开发的AI计算平台，我们发现英伟达的CUDA开发时间最早，积累的开发者数量最多。CUDA推出的的时间是2007年，相较于其他厂商早了十年左右。2012年，以Alexnet为代表的识别类AI技术取得突破后带来的AI算法开发的初期阶段，CUDA即取得了先发优势，在 AI算法开发群体中快速推广使用。之后，英伟达一方面依靠AI芯片优异的硬件性能快速获客，另一方面持续拓展CUDA的算法覆盖面，不断巩固客户群体。英伟达通过“滚雪球”式的软硬件协同创新，将其AI芯片的市场份额不断扩大，并构建起了深厚的生态壁垒。

二、自主研发的 AI 计算平台有利于长期生态的构建

（一）短期来看，兼容 CUDA 的 AI 计算平台在产品推广上具有便利性

市面上主要有两种计算平台：一种是类似于海光DCU的兼容CUDA框架的计算平台，另一种是华为、寒武纪等自主研发的计算平台。兼容CUDA框架的计算平台提供的函数库和软件工具与英伟达的CUDA平台相似度较高，从而降低了开发者改变开发习惯的难度和迁移的成本，有利于产品中短期的推广。此外，CUDA作为英伟达AI 计算平台已经得到广泛应用，兼容CUDA平台可获得较好的生态系统和社区支持。

兼容CUDA的AI计算平台长期面临挑战。兼容CUDA虽然能够给AI芯片短期内带来推广上的便利，但是长期来看仍然存在软硬件适配度不够、迭代速度较慢以及客户粘性不足等问题。具体来看： 1. 软硬件适配度不够：CUDA是由英伟达开发的，其版本迭代都是根据其自身AI芯片性能特点而进行优化。选择兼容CUDA的AI芯片厂商虽然在软件层面可以实现提供类似CUDA的函数库、API接口以及编译环境给AI算法开发人员带来便利，但是硬件层面其自研的AI芯片实现与英伟达AI芯片的内核、架构、制造工艺等方面相似的难度较大。因此，兼容CUDA的AI计算平台存在与其自研的AI芯片适配度不够，导致 AI芯片算力利用率不足甚至性能衰减的问题。 2. 迭代速度较慢：相较于一般的AI芯片公司，英伟达可投入CUDA更新迭代的研发资源较多，使得CUDA的更新速度很快。此外，由于底层架构的差异，部分复杂的 CUDA代码仍需要进行适当的修改和优化才可在“类CUDA”平台上运行。这对兼容 CUDA的架构造成了较大的技术研发压力，其存在由于投入研发资源不充足导致选择兼容CUDA的AI计算平台迭代跟不上CUDA的更新节奏从而影响芯片性能的问题。 3. 客户粘性不足：兼容CUDA的AI计算平台难以通过提升开发环境的易用性和便捷性，培养开发者的使用习惯，让开发者对平台产生粘性。长期来看，相应的AI芯片在缺少生态壁垒的情况下，则需较大的研发投入，实现历代产品在硬件性能上的突破才可与英伟达AI芯片进行竞争。

独立开发的AI计算平台与AI芯片软硬件协同力更强，且减少了对于外部技术的依赖。这种框架通常由独立的技术团队或组织开发，旨在为开发者提供灵活、定制化的解决方案，使其能够根据特定的业务需求和数据特点开发定制化的算法和模型。独立开发的AI计算平台提高模型在不同硬件环境上的适配能力，在软硬件协同方面的效果较好，对于部分AI算法的加速效果可以体现出优异的性能和效果。此外，AI芯片公司独立开发的AI计算平台的指令集和函数库都掌握在自家手中，拥有更多的技术自主权，在针对特定场景开发AI算法时可提供更加灵活和个性化的解决方案。

OpenCL是独立开发框架的代表。OpenCL（Open Computing Language）是一种开放的并行计算编程框架，由Khronos Group开发和维护。它旨在提供一个统一的编程接口，使开发人员能够在各种不同类型的硬件上进行并行计算，包括CPU、GPU、 FPGA等。OpenCL可以在不同平台和设备上运行，并利用这些设备的计算能力来加速各种计算密集型任务，使得OpenCL成为一个灵活且可移植的解决方案，特别适用于需要在不同硬件平台上运行的应用。

类似OpenCL的独立开发框架具有强大的泛用性和跨平台能力，但在推行过程中会遇到较多阻碍。一方面，由于其较低级别的编程模型和相对复杂的调试过程，部署成本可能相对较高；另一方面，由于OpenCL并非主流框架，在主流市场中适配度较低，缺乏广泛的应用和支持。此外，开发和维护成本、缺乏成熟生态系统、技术和算法限制、风险和不稳定性和缺乏社区支持等因素都成为了OpenCL进一步发展的主要障碍。

短期来看，选择兼容CUDA平台的AI芯片在产品推广方面具有一定便利性。CUDA 作为英伟达AI计算平台已经得到广泛应用，兼容CUDA平台的AI芯片具有强大的生态系统，并且可获得社区支持，利用现有的AI平台和共享计算资源，有利于其AI芯片产品的推广。独立开发框架由于缺乏成熟生态系统和社区支持，开发和部署可能需要更多的时间和资源，在短期内可能面临一些挑战。长期来看，兼容CUDA架构的AI芯片难以形成生态壁垒。对于兼容CUDA的AI芯片，由于其开发环境与CUDA的相似度较高，开发者难以通过长期使用形成对其的粘性。长期来看，AI芯片难以通过软件层面的提升形成开发者的生态壁垒，则在硬件层面需要更多的研发投入来提升芯片本身的性能和功能从而吸引用户使用。而在目前英伟达作为AI行业龙头，地位稳固的情况下，单纯通过硬件性能的提升，实现对其每一代AI芯片产品的持续超越的难度较大。

（二）长期来看，自主研发的 AI 计算平台有利于长期生态的构建

美国针对高端芯片及其产业链上下游对中国实施出口限制措施。2022年8月26日，美国政府通知英伟达公司，美国政府对其未来出口到中国和俄罗斯的A100和H100 等高端AI芯片实施了许可证要求。AMD证实其也收到类似通知，其用于AI计算的 GPU等产品线的出口也受到了类似限制。2022年10月7日，美国商务部工业与安全局宣布修订《出口管理条例》，加强限制中国获得先进计算芯片、开发超级计算机以及制造先进半导体的能力，针对高端芯片及相关终端产品、制造设备等产业链上下游升级对华出口管制措施。

美国高端AI芯片出口管制政策变化存在不确定性，与英伟达AI芯片强绑定的CUDA 生态或出现变化。在美国对华高端芯片出口管制政策影响下，以英伟达为代表的部分芯片厂商或选择调整产品配置，以兼顾客户对产品性能要求和出口管制标准。未来，在高端芯片供给不确定性增加的情况下，在部分场景中，AI应用的开发或受到一定影响。我们认为，在英伟达AI芯片对中国出口前景具有不确定性的背景下，以互联网为代表的AI计算下游厂商适配和采用国产化的系统软件（寒武纪的Neuware，华为的CANN）的动力将大大增加。在中美科技领域竞争日益激烈的背景下，AI产业链自主可控建设节奏有望加快。在芯片设计环节，国产高端AI芯片在过去几年性能有了较大提升，以华为昇腾910和寒武纪思元370为代表的国产AI芯片已经具备和英伟达高端AI芯片直接竞争的技术基础。长期来看，美国对华实施的高端芯片出口管制措施预计将催化国内高端AI芯片产业链的国产化进程，加快自主可控的建设节奏。在这一背景下，芯片制造和计算平台领域的国产化建设预计将迎来快速发展的机遇。

1. 在芯片制造环节，先进制程芯片是实现AI芯片算力提升的关键。目前，中国大陆晶圆厂的先进制程芯片规模化量产能力与国际一流厂商仍有一定差距。在AI芯片供应链整体呈现不稳定的背景下，国产芯片制造企业对于先进制程芯片制造工艺的研发动力大大增强。

2. AI计算平台有效提升AI芯片算力利用率并提供开发环境，是AI芯片整体产业链不可或缺的一环。相较于芯片制造环节而言，AI计算平台的自主可控建设主要涉及开发环境的迁移和用户开发习惯的改变，难度相对较低。我们认为，独立于CUDA的自研计算平台对于我国芯片产业的长远发展至关重要。国产AI芯片厂商独立研发、自主迭代的AI计算平台更加具备长久的持续发展能力。

自主研发的计算平台具有选择AI芯片技术路线的灵活性，长期发展空间更宽广。在 AI芯片领域，虽然英伟达的GPU不断升级架构并持续推出新品，是主流的技术路线，但是也存在潜在竞争产品。近年来，针对于特定深度学习算法设计的专用芯片ASIC 已成为包括谷歌、英特尔、华为、寒武纪等科技公司采用的技术路线。在数据中心，针对神经网络训练特定设计的ASIC类芯片专用性更强，对于部分算法的加速效果有望超过GPU。选择兼容CUDA的AI芯片虽然在短期内可以获得产品快速推广的机会，但在长期却失去了可以自由选择其他技术路线实现性能突破的机会。我们认为，在以英伟达为代表的GPU在国内市场受到限制的情况下，各厂商或加快探索除了GPU以外的其他技术路线。在此背景下，不依赖于GPU技术路线的自主研发的AI计算平台具有自由探索和选择其他技术路线的灵活性，长期发展空间更宽广。

各地建成的人工智能计算中心的AI算力租用给当地企业使用的同时也拓展了国产AI 芯片的用户生态。以武汉人工智能计算中心（AIDC）为例，自2021年5月投运以来，为300多家科研机构和企业、高校提供算力服务，日均算力使用超过90%。（数据来源：武汉晚报）武汉AIDC的算力在广泛应用于制造业、交通管理、生物工程等领域的同时也间接推广了华为的CANN计算平台。例如，武汉纳思系统公司的业务是AI 赋能电力巡检，通过武汉AIDC的算力支持和华为CANN提供的软件工具开发出的AI算法让镜头在极微弱的光线环境下也能辨认隐患，实现快速监测。我们认为，国产 AI芯片的计算平台正在依托各地AIDC的算力在各行业的应用而实现用户生态的快速拓展。

国产AI计算平台持续迭代和推广，用户生态建设已具有一定基础。华为的昇腾芯片和寒武纪的思元系列芯片是国内较早开始推广，并在商业落地上取得一定领先优势的产品。在具有一定客户基础后，其持续迭代和推广自研的计算平台，积极拓展用户生态。以寒武纪为例，其于2018年推出用于支撑AI应用跨平台开发、便捷高效运行基础系统软件Neuware。在过去几年，Neuware持续迭代升级，不仅通过对于底层硬件资源的优化提升算力利用率，降低用户的研发成本，还提升了用户粘性，打造用户生态圈。我们认为，最先成功商业化的公司将会扩大对追赶者的优势，因为最终用户不大会接受同时采用诸如四五种以上不同的芯片计算平台体系。我们看好此前有相关经验的华为昇腾CANN和寒武纪Neuware生态的发展前景。

寒武纪Neuware计算平台具有较好的兼容性。与寒武纪的Neuware相比，华为CANN 的算子库数量较多，算法覆盖面更广泛。CANN不仅覆盖计算机视觉、自然语言处理、智能推荐等商业环境常用的AI算法，还为科学计算和大模型相关算法的开发提供支持。但是现阶段科学计算在大部分AI商业化落地的场景中应用空间有限，因此，我们判断，在商业环境的应用中，CANN的算法丰富度并不会使得华为拉开和其竞品明显差距。另一方面，在对AI训练框架的兼容性上，CANN以兼容华为自研的昇思Mindspore为主，而寒武纪Neuware选择兼容第三方的训练框架（例如百度飞桨 Paddle Lite）。具有更为广阔的兼容性使得寒武纪的AI芯片向以互联网公司为代表的商业客户拓展用户生态时更具优势。

华为提供全栈AI解决方案，在部分场景与AI应用公司构成竞争关系。华为在AI产业链中扮演的角色不仅仅作为底层软硬件基础设施提供商，还针对部分场景开发了具体的AI应用。以AI大模型为例，华为不仅提供底层算力（昇腾AI芯片）、训练框架（Mindspore昇思）和基础大模型（盘古大模型），还开发了行业级大模型（盘古金融大模型、盘古制造大模型等）以及针对场景的AI应用（先导药物筛选、传送带异物检测等）。这与部分AI应用提供商构成同业竞争的关系，其发展会受到一定限制。我们认为，华为在各场景中提供全栈AI解决方案的战略会影响其基础AI算力产品以及计算平台CANN的商业拓展。

寒武纪的中立属性在行业格局中具有独特价值，更有利于其用户生态的拓展。寒武纪提供的产品以AI算力基础设施为主，不涉足AI应用领域，与行业参与者更多构成的是互补关系而不是竞争关系。寒武纪作为AI产业链的上游，其下游客户可涵盖云计算公司、智能化升级的科技公司以及AI初创公司等各种类型的AI应用的开发者和提供商。寒武纪的中立属性使其保持智能化升级中赋能者的定位，与产业链上下游形成合作共赢的关系，这更加有利于其Neuware计算平台用户生态的拓展。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）