数据库技术路径复盘及需求推演

提问时间：2023/07/27
浏览次数：170
提问者：匿名用户
举报
分享微信 QQ 微博

数据库技术路径复盘及需求推演

标签

数据库

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2023/07/27 17:12

把握数据处理效率、数据完整性两条发展主线。

1.路径回顾

OLAP 先后衍生出数据仓库、数据湖的发展路径，现在正在进行湖仓一体、智能湖仓的实践尝试。数据仓库聚焦于结构化数据处理能力的问题，由传统 OLTP 数据库提供底层数据，主流采用 MPP（大规模并行计算）的无共享架构，相较于早期分析型数据库显著提升了扩展性和对于结构化数据的处理性能，但不支持非结构化、半结构化数据的存储和分析；数据湖聚焦于数据完整性的实现，支持对于各类半结构化数据（CSV、XML、日志等）、非结构化数据（文档、图片、音频、视频等）的存储和分析，大大拓展了数据分析的使用场景和功能，但在结构化数据处理、ACID 特性支持、数据的实时性与可靠性等维度存在短板。为了兼顾数据分析效率和数据完整性，同时在分析过程中与 AI/ML 更紧密结合，近年来众多分析型数据库厂商开始进行湖仓一体、智能湖仓的尝试。

1）数据仓库：基于 MPP 架构实现较大规模结构化数据计算效率优化，但在可用性、可扩展性和数据模型灵活性上仍存在短板

技术架构：数据仓库的分析对象主要来自 OLTP 数据库的结构化数据，通过预先定义 Schema 的方式，运用 ETL（抽去、转换、加载）操作将数据导入数据仓库后，用户可以较为便捷地链接 BI 系统和报表系统。由于与 OLTP 数据库高度结合，数据仓库对于元数据的要求十分严格，很多数据仓库同样满足 ACID 事务能力。早期数据仓库主流采用 MPP （大规模并行处理）架构，通过一定的节点互联网连接多台 SMP 服务器，每个节点之间采用完全无共享（Shared Nothing）结构，具有独立的 CPU、内存和磁盘资源。在实务过程中，来自 OLTP 数据库的数据将根据来源场景、应用特点分配到不同的节点上，在每个处理单元上并行地进行计算分析，最终每个节点计算完成后再统一汇总得到最终结果。

性能分析：基于 MPP 架构的数据仓库在 ACID 事务性支持和中等规模数据分析效率上具备优势。由于数据源来自高度结构化的 OLTP 系统，数据仓库具有稳定可靠、支持 ACID 事务性和 SQL 兼容的优势，同时多个节点的并行计算也提高了数据仓库所能处理的数据量水平。但是，基于 MPP 架构的数据仓库在数据模型的灵活性、可用性和扩展性的维度上仍存在短板。Web2.0 时代的来临使得企业在日常运营过程中积累了大量非结构化、半结构化数据（如日志、图片、文档、音视频等），需要提前设计 Schema 的数据仓库无法应对非/半结构化数据的处理需求。此外，由于 MPP 的各个节点并行处理任务，一旦某个节点出现性能短板或性能故障，将会降低整个系统的处理性能。因此 MPP 架构的可用性（部分节点发生故障时继续运行的能力）、并发度（单位时间内所能够处理的任务数）仍然存在缺陷，这也进一步造成了 MPP 数据仓库可扩展性以及扩展成本上的短板，使得数据仓库无法应对大数据时代 PB 级甚至更高的数据处理需求。

2）数据湖：以 Hadoop 架构为代表的数据湖提高了可扩展性和数据模型的灵活性，但牺牲了一定程度数据的实时性和可靠性

技术架构：数据湖的核心是存储业务数据的完整副本（原始数据），包括结构化数据、非结构化数据以及半结构化数据。Hadoop 是企业数据湖建设的典型架构，以分布式文件系统 HDFS、分布式计算引擎 MapReduce 为核心组件，将所有机器的存储资源与计算资源进行分层抽象设计。2003 年前后，Google 连续发表三篇论文，奠定了大数据的框架基础。此后基于理论又形成了 Hadoop 原始的“3+1”式软件栈：即分布式文件系统 HDFS、分布式计算引擎 MapReduce、Hbase NoSQL 数据库,以及 YARN 资源调度。Hadoop 定义了最基础的分布式大数据批处理架构，打破了传统数据库一体化的模式，将计算与存储分离，聚焦于解决海量数据的低成本存储与规模化处理。Hadoop 在面对上百 PB 数量级的大数据查询分析时能够极大地提升效率，同时通过使用廉价硬件集群搭建的分布式系统实现成本效益。

性能分析：基于 Hadoop 架构的数据湖解决了半/非结构化数据的存储问题，同时通过存算分离的架构设计提高了可扩展性。数据湖中各种类型的数据均按原样存储，在分析时采用 Schema-on-read 模式，能够满足互联网场景下多种数据类型存储和分析的需求。但也以牺牲 ACID 事务性作为代价。如果要基于 Hadoop 实现 BI、报表等功能，需要将数据库的数据经过 ETL 进入数据仓库、在版本控制、数据索引等维度存在短板。

生态演化：核心组件基础之上衍生出庞杂的开源 Hadoop 生态圈。仅有 HDFS、 MapReduce 组件并不能支撑企业级的大数据分析应用，在此基础上衍生出丰富的生态组件，包括资源管理系统、各类计算引擎、ETL 工具、安装部署工具、数据库/数据仓库产品等。同时，还出现了 Hadoop 发行版商业公司，通过提供整合、加强后的打包产品和服务，解决繁杂组件带来的版本管理混乱、部署过程繁琐、升级过程复杂等问题。

3）湖仓一体和智能湖仓：“仓”“湖”结合，兼顾事务性、扩展性和灵活性，并逐渐向数据全生命周期管理发展

数据量的爆发增长和应用场景的不断丰富为企业分析型数据库提出了更高的要求。随着云、5G 基础设施的成熟带动互联网的深入发展，各种应用程序、移动设备、边缘设备、传感器所产生的数据总量正在以前所未有的速率爆发式增长。IDC 预计 2025 年全球数据总量将达到 175ZB，其中超过 25%为实时数据。数据仓库在扩展性和数据模型的局限性亟待突破。此外，企业数据分析的应用场景不断丰富，智能化分析水平不断提高，爱分析调研显示未来企业存在广阔的 AI/ML 应用空间，企业数据分析智能化需求有望爆发。

基于此，兼具数据仓库和数据湖优势的湖仓一体应运而生。2021 年创新数据系统研究会议（CIDR）上 Databricks，UC Berkeley 和 Stanford University 联合发布的论文《Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics》，系统描绘了新一代湖仓一体架构。数据湖仓的核心是将“湖内”和 “仓内”的数据和元数据进行打通，实现自由流动。各类结构化、非/半结构化数据使用标准文件格式（如 Parquet），通过对象存储的方式依然存储在底层的数据湖当中。在数据湖之上建立的元数据层实现 ACID 事务性、版本控制等数据管理功能。元数据层作为存储层和计算层之间的中间层，通过缓存、索引、辅助数据和数据布局优化等多种优化手段减少计算和存储层之间的 I/O 流量，优化 OLAP 工作负载的性能。元数据层之上的各类计算引擎（包括面向 BI/报表的 SQL 类工作负载和面向数据挖掘的机器学习工作负载）共享统一的数据存储，可以按需摄取热数据、回注冷数据。未来“智能湖仓”架构将把湖、仓以及所有其他数据处理服务组成统一且连续的整体。 AWS 提出的智能湖仓架构旨在以数据为中心构建“数据服务环”。数据湖作为数据中央存储库，围绕数据湖建立包括数据仓库、机器学习、大数据处理、日志分析等一系列专用服务，各项服务共享同一的数据存储，按需对湖内数据进行摄取和回注，同时彼此之间可以以低成本、高效率地进行数据交换，最终实现企业数据全生命周期管理。

2.需求推演：决策实时化、场景精细化、产品标准化

数据库的发展历史是用户数据治理需求的变迁史，需求的演变方向决定技术路线的演进方向。纵观数据库近 70 年的发展历程，从 1960s 增删查改的事务性需求的出现带来了 OLTP 数据库的兴起，到 1990s 针对历史数据的分析和辅助决策需求推动了 OLAP 数据库的发展，用户需求的变迁决定了数据库技术的发展重心。分析型数据库的发展脉络，数据处理效率的更高要求催生了数据仓库，半/非结构化数据的治理需求催生了数据湖，而用户对于数据分析事务性、扩展性和灵活性的统一追求催生了湖仓一体和智能湖仓。

我们认为，当下分析型数据库正呈现出决策实时化、场景精细化、产品标准化的需求，这亦是未来 OLAP 数据库的演进方向。

1）决策实时化：打通 TP/AP 消除 ETL 延时，HTAP 助力实现实时决策

OLAP 与 OLTP 之间的数据传输延时导致在处理实时性极高的分析业务时存在短板。不论是数据仓库还是数据湖，在进行分析处理时都需要基于事务处理所产生和积累的数据，必须经过数据提取、转换、加载的 ETL 过程，在此过程中为了保证系统的高可用将会产生大量且分散的副本数据造成数据冗余，最终导致较高的同步难度和运维成本。同时，当用户面临实时性要求极高的分析业务场景时，OLAP 与 OLTP 之间分钟级甚至小时级的数据传输延时将难以满足分析需求，数据实时性所蕴含的数据价值也会随着 ETL 的延时而逐渐消弭。此外，当用户需要调用不同系统之间的数据进行聚合分析时，实时性方面的短板将被进一步放大。

HTAP 混合事务和分析处理消除了 OLAP 和 OLTP 之间的间隔，可以更好满足实时分析和决策需求。目前市场上的 HTAP 实现路径主要由三种：第一种在上层应用层实现混合处理，通过 OLAP/OLTP 的松耦合和底层共享存储缩短数据同步时间，只能在数据库和应用的整体层面呈现 HTAP 能力；第二种分别运用行存储引擎和列存储引擎进行 OLTP 和 OLAP，存储引擎在物理上进行隔离，通过分布式协议进行实时复制和同步；第三种采用单一存储引擎，在最底层实现 HTAP，但目前仍处于技术探索阶段。第二种分离存储架构、同一系统的 HTAP 是目前的主流解决方案。

2）场景精细化：深耕细分领域积累行业 know-how，应用场景愈加精细化

数据分析与数据管理的应用场景在未来将持续拓展和深化。数据分析的应用将继续向各行业领域的核心业务渗透，数据的采集、流通、分析、应用的价值闭环将持续完善。由数据分析需求逐渐衍生出的大数据管理将逐渐改变各行业的各个价值链环节。一方面，基于历史数据分析的销售预测、趋势分析、营销策略设计、客群画像匹配的优化建议将提高用户的运营效率和决策效率；另一方面，基于数据分析的如 AI、大数据的应用有望带来新商业模式、新产品形态、新应用场景的开拓，如无人驾驶、智能安防、智慧物流等。

3）产品标准化：技术 SaaS 化、解决方案标准化打开长尾下沉市场

分析型数据库产品将逐渐实现标准化，进入下沉市场提高中小企业渗透率。受限于数据治理需求碎片化、场景理解不够深入等因素，现阶段分析型数据库产品主要集中在大型企业客户市场，且定制化程度相对较高。未来伴随更多业务场景能力的沉淀，分析型数据库厂商将不断丰富产品矩阵，完善数据治理服务的深度和广度，通过产品标准化的途径降低成本，从而提高在长尾下沉市场的渗透率。

参考报告

数据库行业专题研究：关键三问深度解读.pdf

数据库行业专题研究：关键三问深度解读。安全可控势在必行，数据库国产替代加速开展，以党政为代表的国产替代先行，并不断向金融、电信等领域拓展。通过对关键三个问题的深度解读，我们认为：1）国产厂商已具备较强的OLTP数据库替代能力；2）OLAP数据库未来仍将会持续快速发展，技术能力强者有望突围；3）数据库行业朝着多元化方向演进，包括非关系型数据库、分布式数据库、HTAP混合负载、云数据库等，与传统数据库类型形成良好的市场互补关系。数据库产业料将持续快速成长，带来诸多投资机遇，产品技术能力强、生态客户圈广、行业趋势把握准确者有望胜出。问题一：OLTP（联机事务处理）数据库的国产替代能力如何？回答一：关...

查看详情

数据库技术路径复盘及需求推演

1.路径回顾

2.需求推演：决策实时化、场景精细化、产品标准化

数据库行业专题研究：关键三问深度解读.pdf

我国数据库市场现状及国产化替代需求如何？

华为信创及数据库产品进展如何？

中国银行业数据库分类、发展背景及现状如何？

国产数据库发展形势、问题及机遇在哪？

主流数据库技术发展情况如何？

国产数据库行业应用、生态建设及基本情况如何？

国产数据库发展现状、市场规模及厂商产品分析

全球数据库竞争格局、厂商产品及发展现状如何？

数据库概念、分类、架构标准、产业链及发展对策建议有哪些？

如何看待华为数据库之路？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王