计算机行业研究报告:分布式,大数据时代的技术革命
- 来源:国泰君安证券
- 发布时间:2021/04/08
- 浏览次数:1188
- 举报
(报告出品方/作者:国泰君安证券,李博伦)
1. 分布式系统,一场破坏性的技术革新
分布式系统的核心思想是分而治之,用一组计算机集群通过计算机网络 协作,共同完成任务。根据传统思路,处理复杂问题的方式是不断提升 计算机性能,研发一代更比一代强的“超级计算机”。而分布式系统则另 辟蹊径,解决问题的方式从“一夫当关、万夫莫开”演变为“人海战术”, 用一组计算机集群替换大型机,集群中的每台机器处理原问题的一个子 集,通过成百上千普通计算机协作,实现与大型机相同甚至更佳的效果。
分布式系统是对传统单机思路的颠覆。过去十几年中,IT 性能界的技术 进步集中于延续性技术的发展,即遵照市场上主流消费者的诉求,不断 提升单机的计算及存储性能。而分布式系统的出现则是反其道而行之, 它抛却了传统采取冯·诺伊曼机进行串行顺序处理的工作机制,通过改 变计算机设计概念结构,在整个计算机集群上组织计算。
分布式系统有望重塑行业格局。在历史经验看,破坏性技术往往会重新 塑造产业价值链和行业竞争格局,孵化出新的独角兽企业。例如线上零 售相对于线下零售是破坏性技术,淘宝、京东相继诞生;个人计算机相 对于大型计算机是破坏性技术,苹果、IBM 把握住了机会。分布式系统 的作为一项类破坏性技术,也有望重塑当前 IT 市场的竞争格局,在多个 细分领域孵化出新的行业龙头。
2. 分布式改造已迫在眉睫
2.1. 数据量爆炸增长,集中式系统矛盾凸显
数据量爆炸性变大,大量非结构化数据产生。移动互联网的普及带来了 全球数据量爆炸性增长的时代。根据 Statista 的统计和预测,2020 年全 球数据产生量高达 47 ZB,预计而到 2035 年,年数据产生量将达到 2142 ZB。此外,采集到的数据中,图片、音频、视频等半结构化、非结构化 的数据占比高达 85%,传统关系型数据库无法胜任此类数据的处理,整 个 IT 系统亟须革命性重构,以适应大数据时代的发展。
集中式系统的提升是非线性的,不可能无限优化。在传统冯·诺伊曼模 型中,人们通过芯片制程工艺+处理器微架构设计+服务器平台技术提升 CPU 计算性能,但目前芯片集成度已进入极小尺度级别,各类复杂的微 体系结构技术都已得到研究应用,未来集中式系统的升级将变得尤为艰 难。
集中性系统技术瓶颈与大数据需求之间的矛盾不断凸显。随着 5G、物联 网时代的到来,数据量爆炸性增长,而传统集中式数据库容量有限,存 储性能提升越来越昂贵;计算复杂度提升迅速,而集中式系统性能提升 却逐步趋缓。集中式技术进步跟不上时代发展的矛盾不断凸显,人们转 而突破冯·诺伊曼体系的束缚,设计能适应大规模数据、大批量计算场 景的分布式系统。
2.2. 分布式是突破瓶颈,解决问题的最佳手段
大数据使得高可拓展性成为信息系统最本质的需求。可拓展性是指,若 集群中计算机数量增加一倍,则解决问题的速度加快一倍或可处理规模 扩大一倍。在可拓展性极高的情况下,只要增加系统中的计算机数量,就能满足日益扩大的业务量需求,处理日益增长的数据规模。在移动互 联走向万物互联的今天,可拓展性无疑会越来越重要。
分布式向“外”横向扩展,而非向“上”纵向扩展,可拓展性降维打击。 分布式系统在可拓展这一性能上可以降维打击集中式系统,并行化框架 允许方便的增加节点扩充系统,但系统节点的增加并不影响程序的编写, 并且能够保证增加后系统性能有线性的提升,也就是说,无论用户访问 数量增长到多大规模,都只需不断购置新的计算机,无需对系统和算法 进行修改即可满足需求。
2.3. 国产替代政策加速分布式技术推广
国产化政策使得各个企业已建成的 IT 系统面临从上到下的整体替换。 随着国际形势日益紧张,为了避免“卡脖子”问题,各个企业将 IT 系统 替换为国产化设备的需求越来越强烈。若要完全避免卡脖子问题,实现 真正的 IT 自主,就意味着 IT 系统要进行从软件到硬件的整体替换。
分布式系统是国产替代环境下更新换代的最佳选择。一方面,既然要整 体更新换代,就要换为符合未来需求的,最适应新时代的技术。而今集 中式的大型机瓶颈已现,无法跟上未来数据量爆炸性增长的节奏,分布 式拥有极强的拓展性,是解决未来几十年大数据时代需求的最佳方案。 另一方面,分布式作为一个新兴的技术,刚刚发展起来,国内厂商在商 业化发展程度上与国外厂商的解决方案无太大差距。
3. 主流分布式系统是架构上的全面升级
3.1. 开源 Hadoop 系统是大数据处理的工业标准
开源的 Apache Hadoop 是最主流的大数据处理平台,成为了事实上的 大数据处理工业标准。在大数据处理的众多技术和系统中,起到开创性 作用、最为主流的当数 Google 公司在 2003 年发明的 MapReduce 技术以 及随后在 2007 年由开源组织 Apache 推出的开源的 Hadoop MapReduce 技术和系统。目前,Hadoop 已经成为全世界最为成功和最广为接受使用 的主流大数据处理技术平台,成为了事实上的大数据处理工业标准。近 年来出现了以内存计算为基础,能够提供多种流计算、图计算等多种大 数据计算模式的 Spark 系统。
大部分分布式系统由 Hadoop 开源产品二次开发而来。在开源 Hadoop 系统发展的同时,工业界也有不少公司基于开源的 Hadoop 进行一系列 商业化版本开发。他们针对开源系统在系统性能优化、系统可用性和可 靠性以及系统功能增强方面进行大量研究和产品开发工作,形成商业化 的发行版。如 Intel 发行版、Cloudera 发行版(CDH)、Hortonworks 发行版 (HDP)、MapR 等,所有这些发行版均是基于 Apache Hadoop 衍生出来 的,在中国诸多大型应用行业得到了推广应用。
3.2. 主流分布式系统由四个层级组成
主流的 Hadoop 分布式系统由硬件、存储管理、并行计算框架、应用层 四个层级组成。主流分布式系统 Hadoop 是围绕数据存储、处理计算的 基础技术,同配套的数据治理、数据分析应用、数据安全流通等助力数 据价值释放的周边技术组合起来形成整套技术生态,具体可以分为:硬 件层、存储管理层、并行计算框架、应用层四个部分。
硬件层:数量换质量。分布式系统选用市场上现成的普通 PC 或性能较 高的刀架或机架式服务器作为基础设施,构成一个包含数千节点的分布 式并行计算集群;据 PASA 实验室研究,普通低端的计算机由于规模效 应和激烈竞争价格较低,PC 服务器集群比高端计算机性价比高 4 倍,以 性价比作为第一要务的分布式系统一般建立在普通低端的计算机集群 中。
存储管理层:去中心化存储。分布式存储系统是一套逻辑上的文件系统, 它将数据存储在物理上分布的每个节点上,但通过分布式文件存储系统 将整个数据形成一个完整的文件。系统中包含一个元数据表(META DATA) ,保存所有数据表的位置,承担目录的作用,查询数据时先访问 到元数据表,获取数据所在服务器,再访问到具体数据。
并行化计算框架:封装细节,成为所有应用的入口。为了进一步提升并 行计算程序的自动化并行处理能力,编程时应该尽量减少程序员对很多 系统底层技术细节的考虑,使得编程人员更专注于应用问题本身的计算 和算法实现,并行计算框架诞生。并行化计算框架能够自动完成计算任 务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分 配和执行子任务以及收集计算结果,将数据分发、任务分配、数据通信 和同步,容错处理等并行计算中的复杂细节交给计算机处理,减轻了编 程人员的负担。
3.3. 分布式系统解决所有领域中数据量大、计算复杂的问题
分布式技术可应用于几乎所有行业,用以解决计算密集型、数据密集型 两大类问题。分布式系统解决的问题可以分为两类,第一是计算密集型 问题,第二是数据密集型问题。
计算密集型问题:指计算复杂度极高,涉及数据量较少的问题,诸如 3D 建模和渲染、物理实验中的高性能计算、比特币挖矿等。对于计算密集 型的问题,由于涉及到的数据量较少,往往只需要部署分布式计算集群, 做好集群之间计算任务的分工协作,无需分布式存储系统。
数据密集型问题:指涉及到大量数据量的问题,诸如淘宝要分析的每位 用户产生的日浏览数据,大量数据训练机器学习模型等。对于数据密集 型问题,数据迁移是信息系统中最大的开销,故往往需要分布式存储系 统作为基础,再进行分布式计算。
数据密集型问题由于与数据交互的方式不同,需采用不同的分布式存储 技术:
1. 频繁读写、修改数据。此种情形常用于日常事务性操作,如银行、券 商对核心数据库的日常操作,需使用关系型数据库作为存储系统。
2. 一次写、多次读,已写入数据不能更新。此种情形常用于大数据分析 挖掘,可使用 NoSQL 等数据存储无固定格式的数据库。
3. 一边写一边读,流式计算。用于数据时效价值极高的场景,例如高频 股票交易,对用户进行商品实时推荐等。
4. 国产分布式的发展现状
4.1. IT 巨头研发通用底层平台,行业 ISV 构建生态
未来或将呈现 IT 巨头研发分布式通用底层平台,ISV 开发满足细分需 求的分布式应用的局面。目前几家华为、阿里、腾讯、百度等 IT 巨头大 数据技术实力较强,均基于 Hadoop 开源平台开发出了商业化版本的分 布式平台产品。但各细分行业仍有具体的分布式应用需深耕该细分行业 的 ISV 在底层平台的基础上完成开发,共同构建起丰富的大数据技术生 态。
目前华为、阿里、腾讯、百度等 IT 巨头均有基于 Hadoop 开发的大数据 平台产品。Apache Hadoop 的开源协议允许任何人对其进行修改并作为 开源或者商业产品发布,国内研发实力领先的各 IT 巨头均早早开启了 分布式领域的布局,目前已经形成了涵盖数据仓库、实时流式数据处理、 数据挖掘、图计算、分布式数据库等在内,涵盖多行业领域的完善技术 体系。
源于开源、高于开源。为保证良好的兼容性和开放性,以及最重要的稳 定性。各家的大数据平台均基于开源 Hadoop 平台商业化改版而来,并 在开源版本的基础上自研安全加固、可靠性增强、存储计算优化等核心 技术竞争力。各家产品均有了横跨多个行业领域的实践应用案例。
4.2. 金融为目前分布式系统的主要应用领域
分布式系统在各行各业中普及,金融行业分布式应用占比最高。据信通 院对 1404 家涉及行业大数据应用的企业的统计,金融、医疗健康、政务 是大数据行业应用的最主要类型,分别占比 30%、14%、13%。除此之 外是互联网、教育、交通运输、电子商务等行业。
金融机构客户对分布式的接受程度不断提高,分布式技术正在从边缘系 统向核心系统演进。随着对分布式的探索越来越多,问题的不断被解决, 分布式使用场景越来越多,金融行业客户对分布式的接受程度正在提高, 分布式系统从边缘应用逐步向核心应用演进。2020 年邮储银行的分布式核心项目标志着国有大行正式进入了核心系统分布式更新换代的周期。
4.3. 金融 IT 主要厂商纷纷布局分布式
长亮科技在布局银行 IT 领域的分布式系统研发。近两年国有大行、股 份制银行纷纷开启新一代核心系统建设及统一技术平台建设,而基于单 元化分布式、微服务等构建的企业级 IT 架构和技术平台是其中最为经 典的建设思路。长亮科技在此过程中先后创造了国内首个分布式核心系 统、首个“微服务+单元化”架构分布式核心系统,并凭借着企业级架构 核心及技术平台的领先优势,先后中标了多家国有大行信创项目:
中标邮储银行新核心技术平台及银行汇款组件;
中标交通银行信用卡核心系统及技术平台;
中标中国银行技术平台-单元化部署组件;
恒生电子在布局证券 IT 领域的分布式系统研发。中国证券行业交易面 临基础技术升级、市场逐步完善、交易程序化、差异化竞争等几大趋势, 交易技术设施性能的提升迫在眉睫。这意味着对系统而言,低延时、高可 用、易开发,具有高度可定制性,缺一不可。而恒生电子于 2021 年 3 月 10 日公布的恒生 Light 平台中十大技术栈之一的 Light-LDP 正是低时延 分布式开发平台。Light-LDP 通过分布式构架助力金融机构构建核心极 速业务系统,进而完成差异化,并适应各类金融行业应用场景。
平安云在布局企业级核心业务 IT 领域的分布式系统研发。平安分布式 关系型数据库服务(Distributed Relational Database Service,简称 DRDS) 是平安云为解决单机数据库服务瓶颈问题而研发的分布式数据库。可部 署主备架构,提供容灾、监控等方面的全套解决方案,为客户提供一站 式数据库解决方案,助力各行业企业客户尤其是金融行业客户主机下移, 以适应数据量爆炸的大数据时代。
详见报告原文。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 计算机:通过AI原生,提升驾驶敏捷性和商业价值统一采购平台(英文版).pdf
- 计算机行业:2026全球量子计算产业发展展望.pdf
- 计算机行业OpenClaw:吹响AI Agent时代号角.pdf
- 计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透.pdf
- 计算机行业工业AI深度研究:跨越幻觉鸿沟,掘金万亿蓝海.pdf
- 科技新周期系列1:穿越泡沫,从技术革命到金融资本.pdf
- 汽车行业2025年度中期投资策略:在技术革命和全球视野中寻找机会.pdf
- 融合技术革命和人力资本.pdf
- 技术革命与人力资本的融合:对南亚的潜力和影响.pdf
- 锂行业专题报告:盐湖提锂,技术革命,成本下行,放量可期.pdf
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 华为鲲鹏产业体系研究深度报告:鲲鹏展翅,挥下千亿市场.pdf
- 2 计算机行业研究及2020年投资策略(103页).pdf
- 3 国产计算机基础软硬件行业深度报告:重构中国IT产业生态.pdf
- 4 计算机行业深度分析:国产软件大阅兵.pdf
- 5 国产操作系统产业分析报告:国魂所系,任重道远.pdf
- 6 网络安全服务行业研究报告:网络安全行业的制高点
- 7 计算机操作系统的历史演进和未来趋势.pdf
- 8 计算机行业专题报告:多模态大模型技术演进及研究框架.pdf
- 9 计算机行业2020年度投资策略报告(87页).pdf
- 10 2020年计算机行业中期策略:疫情和中美脱钩对行业意味着什么.pdf
- 1 计算机行业2025年三季报业绩综述:业绩趋势向好,关注AI+与信创主题.pdf
- 2 计算机行业从Circle和Coinbase看稳定币产业链:稳定币+RWA,迈向Finternet的关键.pdf
- 3 计算机行业“智能驾驶”系列专题报告:域控制器研究框架.pdf
- 4 计算机行业专题报告:物理AI,AI技术演进新方向,赋能产业智能化升级.pdf
- 5 计算机行业专题研究:DeepSeek重构算力基建长期价值的认知.pdf
- 6 计算机行业深度研究报告:字节跳动,深度布局AIGC,竞逐新一轮技术浪潮.pdf
- 7 计算机行业分析:国产算力迎来GB200时刻,AI交换网络是核心增量.pdf
- 8 计算机行业深度报告:脑机接口,从概念到落地,开启交互新时代.pdf
- 9 计算机行业深度研究:软件大革命深度,AI Agent投资宝典.pdf
- 10 计算机行业“AI+金融”系列专题研究:行业拐点已至,金融是AI应用落地的绝佳“试验田”.pdf
- 1 计算机行业:NV Rubin新架构&Agent存储最强方向,GPU Native数据库【星环科技】.pdf
- 2 计算机行业AI应用系列:3D打印百花齐放,国产厂商持续突破.pdf
- 3 计算机行业:从智谱华章MiniMax IPO看产业机遇,国内AI产业机遇期来临.pdf
- 4 计算机行业专题研究:千问APP正式接入阿里生态,流量模型AI应用产业格局有望重构.pdf
- 5 计算机行业:SpaceX如何值万亿美元?.pdf
- 6 计算机行业AI编程:重塑软件开发新范式,应用生态加速繁荣.pdf
- 7 计算机行业专题报告:GPU+ASIC渗透加速,液冷市场规模再添增量.pdf
- 8 计算机行业:AI编程商业化加速,关注本土产业参与方.pdf
- 9 计算机行业:SpaceX,从“变革”中崛起的“星际先行者”.pdf
- 10 计算机行业共享出行:迈向高质量发展,Robotaxi开启新篇章.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 2 2026年计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透
- 3 2026年计算机行业工业AI深度研究:跨越幻觉鸿沟,掘金万亿蓝海
- 4 2026年第10周计算机行业周报:openClaw推动AI产业进入Agent时代
- 5 2026年计算机行业多模态:视频生成,2026年有望实现从1到N
- 6 2026年计算机行业量子计算:技术突破与政策催化共振,商业化落地加速可期
- 7 2026年计算机行业量子系列报告(二):掘金量子计算,四大核心环节投资全景
- 8 2026年计算机行业星链:天基骨干筑网,手机直连拓界
- 9 2026年计算机行业月报:国产大模型token通胀,全球软件行业或迎重构
- 10 2026年计算机行业AI4S:当科技乘以科技看好——GenAI系列70暨AI4S入门篇
- 1 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 2 2026年计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透
- 3 2026年计算机行业工业AI深度研究:跨越幻觉鸿沟,掘金万亿蓝海
- 4 2026年第10周计算机行业周报:openClaw推动AI产业进入Agent时代
- 5 2026年计算机行业多模态:视频生成,2026年有望实现从1到N
- 6 2026年计算机行业量子计算:技术突破与政策催化共振,商业化落地加速可期
- 7 2026年计算机行业量子系列报告(二):掘金量子计算,四大核心环节投资全景
- 8 2026年计算机行业星链:天基骨干筑网,手机直连拓界
- 9 2026年计算机行业月报:国产大模型token通胀,全球软件行业或迎重构
- 10 2026年计算机行业AI4S:当科技乘以科技看好——GenAI系列70暨AI4S入门篇
- 1 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 2 2026年计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透
- 3 2026年计算机行业工业AI深度研究:跨越幻觉鸿沟,掘金万亿蓝海
- 4 2026年第10周计算机行业周报:openClaw推动AI产业进入Agent时代
- 5 2026年计算机行业多模态:视频生成,2026年有望实现从1到N
- 6 2026年计算机行业量子计算:技术突破与政策催化共振,商业化落地加速可期
- 7 2026年计算机行业量子系列报告(二):掘金量子计算,四大核心环节投资全景
- 8 2026年计算机行业星链:天基骨干筑网,手机直连拓界
- 9 2026年计算机行业月报:国产大模型token通胀,全球软件行业或迎重构
- 10 2026年计算机行业AI4S:当科技乘以科技看好——GenAI系列70暨AI4S入门篇
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
