计算机行业研究报告：分布式，大数据时代的技术革命

来源：国泰君安证券
发布时间：2021/04/08
浏览次数：1188
举报

（报告出品方/作者：国泰君安证券，李博伦）

1. 分布式系统，一场破坏性的技术革新

分布式系统的核心思想是分而治之，用一组计算机集群通过计算机网络协作，共同完成任务。根据传统思路，处理复杂问题的方式是不断提升计算机性能，研发一代更比一代强的“超级计算机”。而分布式系统则另辟蹊径，解决问题的方式从“一夫当关、万夫莫开”演变为“人海战术”，用一组计算机集群替换大型机，集群中的每台机器处理原问题的一个子集，通过成百上千普通计算机协作，实现与大型机相同甚至更佳的效果。

分布式系统是对传统单机思路的颠覆。过去十几年中，IT 性能界的技术进步集中于延续性技术的发展，即遵照市场上主流消费者的诉求，不断提升单机的计算及存储性能。而分布式系统的出现则是反其道而行之，它抛却了传统采取冯·诺伊曼机进行串行顺序处理的工作机制，通过改变计算机设计概念结构，在整个计算机集群上组织计算。

分布式系统有望重塑行业格局。在历史经验看，破坏性技术往往会重新塑造产业价值链和行业竞争格局，孵化出新的独角兽企业。例如线上零售相对于线下零售是破坏性技术，淘宝、京东相继诞生；个人计算机相对于大型计算机是破坏性技术，苹果、IBM 把握住了机会。分布式系统的作为一项类破坏性技术，也有望重塑当前 IT 市场的竞争格局，在多个细分领域孵化出新的行业龙头。

2. 分布式改造已迫在眉睫

2.1. 数据量爆炸增长，集中式系统矛盾凸显

数据量爆炸性变大，大量非结构化数据产生。移动互联网的普及带来了全球数据量爆炸性增长的时代。根据 Statista 的统计和预测，2020 年全球数据产生量高达 47 ZB，预计而到 2035 年，年数据产生量将达到 2142 ZB。此外，采集到的数据中，图片、音频、视频等半结构化、非结构化的数据占比高达 85%，传统关系型数据库无法胜任此类数据的处理，整个 IT 系统亟须革命性重构，以适应大数据时代的发展。

计算机行业研究报告：分布式，大数据时代的技术革命

集中式系统的提升是非线性的，不可能无限优化。在传统冯·诺伊曼模型中，人们通过芯片制程工艺+处理器微架构设计+服务器平台技术提升 CPU 计算性能，但目前芯片集成度已进入极小尺度级别，各类复杂的微体系结构技术都已得到研究应用，未来集中式系统的升级将变得尤为艰难。

集中性系统技术瓶颈与大数据需求之间的矛盾不断凸显。随着 5G、物联网时代的到来，数据量爆炸性增长，而传统集中式数据库容量有限，存储性能提升越来越昂贵；计算复杂度提升迅速，而集中式系统性能提升却逐步趋缓。集中式技术进步跟不上时代发展的矛盾不断凸显，人们转而突破冯·诺伊曼体系的束缚，设计能适应大规模数据、大批量计算场景的分布式系统。

2.2. 分布式是突破瓶颈，解决问题的最佳手段

大数据使得高可拓展性成为信息系统最本质的需求。可拓展性是指，若集群中计算机数量增加一倍，则解决问题的速度加快一倍或可处理规模扩大一倍。在可拓展性极高的情况下，只要增加系统中的计算机数量，就能满足日益扩大的业务量需求，处理日益增长的数据规模。在移动互联走向万物互联的今天，可拓展性无疑会越来越重要。

分布式向“外”横向扩展，而非向“上”纵向扩展，可拓展性降维打击。分布式系统在可拓展这一性能上可以降维打击集中式系统，并行化框架允许方便的增加节点扩充系统，但系统节点的增加并不影响程序的编写，并且能够保证增加后系统性能有线性的提升，也就是说，无论用户访问数量增长到多大规模，都只需不断购置新的计算机，无需对系统和算法进行修改即可满足需求。

2.3. 国产替代政策加速分布式技术推广

国产化政策使得各个企业已建成的 IT 系统面临从上到下的整体替换。随着国际形势日益紧张，为了避免“卡脖子”问题，各个企业将 IT 系统替换为国产化设备的需求越来越强烈。若要完全避免卡脖子问题，实现真正的 IT 自主，就意味着 IT 系统要进行从软件到硬件的整体替换。

分布式系统是国产替代环境下更新换代的最佳选择。一方面，既然要整体更新换代，就要换为符合未来需求的，最适应新时代的技术。而今集中式的大型机瓶颈已现，无法跟上未来数据量爆炸性增长的节奏，分布式拥有极强的拓展性，是解决未来几十年大数据时代需求的最佳方案。另一方面，分布式作为一个新兴的技术，刚刚发展起来，国内厂商在商业化发展程度上与国外厂商的解决方案无太大差距。

3. 主流分布式系统是架构上的全面升级

3.1. 开源 Hadoop 系统是大数据处理的工业标准

开源的 Apache Hadoop 是最主流的大数据处理平台，成为了事实上的大数据处理工业标准。在大数据处理的众多技术和系统中，起到开创性作用、最为主流的当数 Google 公司在 2003 年发明的 MapReduce 技术以及随后在 2007 年由开源组织 Apache 推出的开源的 Hadoop MapReduce 技术和系统。目前，Hadoop 已经成为全世界最为成功和最广为接受使用的主流大数据处理技术平台，成为了事实上的大数据处理工业标准。近年来出现了以内存计算为基础，能够提供多种流计算、图计算等多种大数据计算模式的 Spark 系统。

大部分分布式系统由 Hadoop 开源产品二次开发而来。在开源 Hadoop 系统发展的同时，工业界也有不少公司基于开源的 Hadoop 进行一系列商业化版本开发。他们针对开源系统在系统性能优化、系统可用性和可靠性以及系统功能增强方面进行大量研究和产品开发工作，形成商业化的发行版。如 Intel 发行版、Cloudera 发行版(CDH)、Hortonworks 发行版（HDP）、MapR 等，所有这些发行版均是基于 Apache Hadoop 衍生出来的，在中国诸多大型应用行业得到了推广应用。

3.2. 主流分布式系统由四个层级组成

主流的 Hadoop 分布式系统由硬件、存储管理、并行计算框架、应用层四个层级组成。主流分布式系统 Hadoop 是围绕数据存储、处理计算的基础技术，同配套的数据治理、数据分析应用、数据安全流通等助力数据价值释放的周边技术组合起来形成整套技术生态，具体可以分为：硬件层、存储管理层、并行计算框架、应用层四个部分。

硬件层：数量换质量。分布式系统选用市场上现成的普通 PC 或性能较高的刀架或机架式服务器作为基础设施，构成一个包含数千节点的分布式并行计算集群；据 PASA 实验室研究，普通低端的计算机由于规模效应和激烈竞争价格较低，PC 服务器集群比高端计算机性价比高 4 倍，以性价比作为第一要务的分布式系统一般建立在普通低端的计算机集群中。

存储管理层：去中心化存储。分布式存储系统是一套逻辑上的文件系统，它将数据存储在物理上分布的每个节点上，但通过分布式文件存储系统将整个数据形成一个完整的文件。系统中包含一个元数据表（META DATA) ，保存所有数据表的位置，承担目录的作用，查询数据时先访问到元数据表，获取数据所在服务器，再访问到具体数据。

并行化计算框架：封装细节，成为所有应用的入口。为了进一步提升并行计算程序的自动化并行处理能力，编程时应该尽量减少程序员对很多系统底层技术细节的考虑，使得编程人员更专注于应用问题本身的计算和算法实现，并行计算框架诞生。并行化计算框架能够自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节点上自动分配和执行子任务以及收集计算结果，将数据分发、任务分配、数据通信和同步，容错处理等并行计算中的复杂细节交给计算机处理，减轻了编程人员的负担。

3.3. 分布式系统解决所有领域中数据量大、计算复杂的问题

分布式技术可应用于几乎所有行业，用以解决计算密集型、数据密集型两大类问题。分布式系统解决的问题可以分为两类，第一是计算密集型问题，第二是数据密集型问题。

计算密集型问题：指计算复杂度极高，涉及数据量较少的问题，诸如 3D 建模和渲染、物理实验中的高性能计算、比特币挖矿等。对于计算密集型的问题，由于涉及到的数据量较少，往往只需要部署分布式计算集群，做好集群之间计算任务的分工协作，无需分布式存储系统。

数据密集型问题：指涉及到大量数据量的问题，诸如淘宝要分析的每位用户产生的日浏览数据，大量数据训练机器学习模型等。对于数据密集型问题，数据迁移是信息系统中最大的开销，故往往需要分布式存储系统作为基础，再进行分布式计算。

数据密集型问题由于与数据交互的方式不同，需采用不同的分布式存储技术：

1. 频繁读写、修改数据。此种情形常用于日常事务性操作，如银行、券商对核心数据库的日常操作，需使用关系型数据库作为存储系统。

2. 一次写、多次读，已写入数据不能更新。此种情形常用于大数据分析挖掘，可使用 NoSQL 等数据存储无固定格式的数据库。

3. 一边写一边读，流式计算。用于数据时效价值极高的场景，例如高频股票交易，对用户进行商品实时推荐等。

4. 国产分布式的发展现状

4.1. IT 巨头研发通用底层平台，行业 ISV 构建生态

未来或将呈现 IT 巨头研发分布式通用底层平台，ISV 开发满足细分需求的分布式应用的局面。目前几家华为、阿里、腾讯、百度等 IT 巨头大数据技术实力较强，均基于 Hadoop 开源平台开发出了商业化版本的分布式平台产品。但各细分行业仍有具体的分布式应用需深耕该细分行业的 ISV 在底层平台的基础上完成开发，共同构建起丰富的大数据技术生态。

目前华为、阿里、腾讯、百度等 IT 巨头均有基于 Hadoop 开发的大数据平台产品。Apache Hadoop 的开源协议允许任何人对其进行修改并作为开源或者商业产品发布，国内研发实力领先的各 IT 巨头均早早开启了分布式领域的布局，目前已经形成了涵盖数据仓库、实时流式数据处理、数据挖掘、图计算、分布式数据库等在内，涵盖多行业领域的完善技术体系。

源于开源、高于开源。为保证良好的兼容性和开放性，以及最重要的稳定性。各家的大数据平台均基于开源 Hadoop 平台商业化改版而来，并在开源版本的基础上自研安全加固、可靠性增强、存储计算优化等核心技术竞争力。各家产品均有了横跨多个行业领域的实践应用案例。

4.2. 金融为目前分布式系统的主要应用领域

分布式系统在各行各业中普及，金融行业分布式应用占比最高。据信通院对 1404 家涉及行业大数据应用的企业的统计，金融、医疗健康、政务是大数据行业应用的最主要类型，分别占比 30%、14%、13%。除此之外是互联网、教育、交通运输、电子商务等行业。

计算机行业研究报告：分布式，大数据时代的技术革命

金融机构客户对分布式的接受程度不断提高，分布式技术正在从边缘系统向核心系统演进。随着对分布式的探索越来越多，问题的不断被解决，分布式使用场景越来越多，金融行业客户对分布式的接受程度正在提高，分布式系统从边缘应用逐步向核心应用演进。2020 年邮储银行的分布式核心项目标志着国有大行正式进入了核心系统分布式更新换代的周期。

4.3. 金融 IT 主要厂商纷纷布局分布式

长亮科技在布局银行 IT 领域的分布式系统研发。近两年国有大行、股份制银行纷纷开启新一代核心系统建设及统一技术平台建设，而基于单元化分布式、微服务等构建的企业级 IT 架构和技术平台是其中最为经典的建设思路。长亮科技在此过程中先后创造了国内首个分布式核心系统、首个“微服务+单元化”架构分布式核心系统，并凭借着企业级架构核心及技术平台的领先优势，先后中标了多家国有大行信创项目：

中标邮储银行新核心技术平台及银行汇款组件；

中标交通银行信用卡核心系统及技术平台；

中标中国银行技术平台-单元化部署组件；

恒生电子在布局证券 IT 领域的分布式系统研发。中国证券行业交易面临基础技术升级、市场逐步完善、交易程序化、差异化竞争等几大趋势, 交易技术设施性能的提升迫在眉睫。这意味着对系统而言,低延时、高可用、易开发，具有高度可定制性，缺一不可。而恒生电子于 2021 年 3 月 10 日公布的恒生 Light 平台中十大技术栈之一的 Light-LDP 正是低时延分布式开发平台。Light-LDP 通过分布式构架助力金融机构构建核心极速业务系统，进而完成差异化，并适应各类金融行业应用场景。

平安云在布局企业级核心业务 IT 领域的分布式系统研发。平安分布式关系型数据库服务（Distributed Relational Database Service，简称 DRDS）是平安云为解决单机数据库服务瓶颈问题而研发的分布式数据库。可部署主备架构，提供容灾、监控等方面的全套解决方案，为客户提供一站式数据库解决方案，助力各行业企业客户尤其是金融行业客户主机下移，以适应数据量爆炸的大数据时代。

详见报告原文。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）