把握数据处理效率、数据完整性两条发展主线。
1.路径回顾
OLAP 先后衍生出数据仓库、数据湖的发展路径,现在正在进行湖仓一体、 智能湖仓的实践尝试。数据仓库聚焦于结构化数据处理能力的问题,由传统 OLTP 数据库 提供底层数据,主流采用 MPP(大规模并行计算)的无共享架构,相较于早期分析型数据 库显著提升了扩展性和对于结构化数据的处理性能,但不支持非结构化、半结构化数据的 存储和分析;数据湖聚焦于数据完整性的实现,支持对于各类半结构化数据(CSV、XML、 日志等)、非结构化数据(文档、图片、音频、视频等)的存储和分析,大大拓展了数据 分析的使用场景和功能,但在结构化数据处理、ACID 特性支持、数据的实时性与可靠性 等维度存在短板。为了兼顾数据分析效率和数据完整性,同时在分析过程中与 AI/ML 更紧 密结合,近年来众多分析型数据库厂商开始进行湖仓一体、智能湖仓的尝试。

1) 数据仓库:基于 MPP 架构实现较大规模结构化数据计算效率优化,但在可用性、 可扩展性和数据模型灵活性上仍存在短板
技术架构:数据仓库的分析对象主要来自 OLTP 数据库的结构化数据,通过预先定义 Schema 的方式,运用 ETL(抽去、转换、加载)操作将数据导入数据仓库后,用户可以 较为便捷地链接 BI 系统和报表系统。由于与 OLTP 数据库高度结合,数据仓库对于元数 据的要求十分严格,很多数据仓库同样满足 ACID 事务能力。早期数据仓库主流采用 MPP (大规模并行处理)架构,通过一定的节点互联网连接多台 SMP 服务器,每个节点之间 采用完全无共享(Shared Nothing)结构,具有独立的 CPU、内存和磁盘资源。在实务过 程中,来自 OLTP 数据库的数据将根据来源场景、应用特点分配到不同的节点上,在每个 处理单元上并行地进行计算分析,最终每个节点计算完成后再统一汇总得到最终结果。
性能分析:基于 MPP 架构的数据仓库在 ACID 事务性支持和中等规模数据分析效率 上具备优势。由于数据源来自高度结构化的 OLTP 系统,数据仓库具有稳定可靠、支持 ACID 事务性和 SQL 兼容的优势,同时多个节点的并行计算也提高了数据仓库所能处理的数据 量水平。但是,基于 MPP 架构的数据仓库在数据模型的灵活性、可用性和扩展性的维度 上仍存在短板。Web2.0 时代的来临使得企业在日常运营过程中积累了大量非结构化、半 结构化数据(如日志、图片、文档、音视频等),需要提前设计 Schema 的数据仓库无法 应对非/半结构化数据的处理需求。此外,由于 MPP 的各个节点并行处理任务,一旦某个 节点出现性能短板或性能故障,将会降低整个系统的处理性能。因此 MPP 架构的可用性 (部分节点发生故障时继续运行的能力)、并发度(单位时间内所能够处理的任务数)仍 然存在缺陷,这也进一步造成了 MPP 数据仓库可扩展性以及扩展成本上的短板,使得数 据仓库无法应对大数据时代 PB 级甚至更高的数据处理需求。
2) 数据湖:以 Hadoop 架构为代表的数据湖提高了可扩展性和数据模型的灵活性, 但牺牲了一定程度数据的实时性和可靠性
技术架构:数据湖的核心是存储业务数据的完整副本(原始数据),包括结构化数据、 非结构化数据以及半结构化数据。Hadoop 是企业数据湖建设的典型架构,以分布式文件 系统 HDFS、分布式计算引擎 MapReduce 为核心组件,将所有机器的存储资源与计算资 源进行分层抽象设计。2003 年前后,Google 连续发表三篇论文,奠定了大数据的框架基 础。此后基于理论又形成了 Hadoop 原始的“3+1”式软件栈:即分布式文件系统 HDFS、 分布式计算引擎 MapReduce、Hbase NoSQL 数据库,以及 YARN 资源调度。Hadoop 定 义了最基础的分布式大数据批处理架构,打破了传统数据库一体化的模式,将计算与存储 分离,聚焦于解决海量数据的低成本存储与规模化处理。Hadoop 在面对上百 PB 数量级 的大数据查询分析时能够极大地提升效率,同时通过使用廉价硬件集群搭建的分布式系统 实现成本效益。
性能分析:基于 Hadoop 架构的数据湖解决了半/非结构化数据的存储问题,同时通过 存算分离的架构设计提高了可扩展性。数据湖中各种类型的数据均按原样存储,在分析时 采用 Schema-on-read 模式,能够满足互联网场景下多种数据类型存储和分析的需求。但 也以牺牲 ACID 事务性作为代价。如果要基于 Hadoop 实现 BI、报表等功能,需要将数据 库的数据经过 ETL 进入数据仓库、在版本控制、数据索引等维度存在短板。

生态演化:核心组件基础之上衍生出庞杂的开源 Hadoop 生态圈。仅有 HDFS、 MapReduce 组件并不能支撑企业级的大数据分析应用,在此基础上衍生出丰富的生态组 件,包括资源管理系统、各类计算引擎、ETL 工具、安装部署工具、数据库/数据仓库产品 等。同时,还出现了 Hadoop 发行版商业公司,通过提供整合、加强后的打包产品和服务, 解决繁杂组件带来的版本管理混乱、部署过程繁琐、升级过程复杂等问题。
3) 湖仓一体和智能湖仓:“仓”“湖”结合,兼顾事务性、扩展性和灵活性,并逐渐 向数据全生命周期管理发展
数据量的爆发增长和应用场景的不断丰富为企业分析型数据库提出了更高的要求。随 着云、5G 基础设施的成熟带动互联网的深入发展,各种应用程序、移动设备、边缘设备、 传感器所产生的数据总量正在以前所未有的速率爆发式增长。IDC 预计 2025 年全球数据 总量将达到 175ZB,其中超过 25%为实时数据。数据仓库在扩展性和数据模型的局限性亟 待突破。此外,企业数据分析的应用场景不断丰富,智能化分析水平不断提高,爱分析调 研显示未来企业存在广阔的 AI/ML 应用空间,企业数据分析智能化需求有望爆发。
基于此,兼具数据仓库和数据湖优势的湖仓一体应运而生。2021 年创新数据系统研 究会议(CIDR)上 Databricks,UC Berkeley 和 Stanford University 联合发布的论文 《Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics》,系统描绘了新一代湖仓一体架构。数据湖仓的核心是将“湖内”和 “仓内”的数据和元数据进行打通,实现自由流动。各类结构化、非/半结构化数据使用标准文件格式(如 Parquet),通过对象存储的方式依然存储在底层的数据湖当中。在数据湖 之上建立的元数据层实现 ACID 事务性、版本控制等数据管理功能。元数据层作为存储层 和计算层之间的中间层,通过缓存、索引、辅助数据和数据布局优化等多种优化手段减少 计算和存储层之间的 I/O 流量,优化 OLAP 工作负载的性能。元数据层之上的各类计算引 擎(包括面向 BI/报表的 SQL 类工作负载和面向数据挖掘的机器学习工作负载)共享统一 的数据存储,可以按需摄取热数据、回注冷数据。 未来“智能湖仓”架构将把湖、仓以及所有其他数据处理服务组成统一且连续的整体。 AWS 提出的智能湖仓架构旨在以数据为中心构建“数据服务环”。数据湖作为数据中央存 储库,围绕数据湖建立包括数据仓库、机器学习、大数据处理、日志分析等一系列专用服 务,各项服务共享同一的数据存储,按需对湖内数据进行摄取和回注,同时彼此之间可以 以低成本、高效率地进行数据交换,最终实现企业数据全生命周期管理。

2.需求推演:决策实时化、场景精细化、产品标准化
数据库的发展历史是用户数据治理需求的变迁史,需求的演变方向决定技术路线的演 进方向。纵观数据库近 70 年的发展历程,从 1960s 增删查改的事务性需求的出现带来了 OLTP 数据库的兴起,到 1990s 针对历史数据的分析和辅助决策需求推动了 OLAP 数据库 的发展,用户需求的变迁决定了数据库技术的发展重心。分析型数据库的发展脉络,数据 处理效率的更高要求催生了数据仓库,半/非结构化数据的治理需求催生了数据湖,而用户 对于数据分析事务性、扩展性和灵活性的统一追求催生了湖仓一体和智能湖仓。
我们认为,当下分析型数据库正呈现出决策实时化、场景精细化、产品标准化的需求, 这亦是未来 OLAP 数据库的演进方向。
1) 决策实时化:打通 TP/AP 消除 ETL 延时,HTAP 助力实现实时决策
OLAP 与 OLTP 之间的数据传输延时导致在处理实时性极高的分析业务时存在短板。 不论是数据仓库还是数据湖,在进行分析处理时都需要基于事务处理所产生和积累的数据, 必须经过数据提取、转换、加载的 ETL 过程,在此过程中为了保证系统的高可用将会产生大量且分散的副本数据造成数据冗余,最终导致较高的同步难度和运维成本。同时,当用 户面临实时性要求极高的分析业务场景时,OLAP 与 OLTP 之间分钟级甚至小时级的数据 传输延时将难以满足分析需求,数据实时性所蕴含的数据价值也会随着 ETL 的延时而逐渐 消弭。此外,当用户需要调用不同系统之间的数据进行聚合分析时,实时性方面的短板将 被进一步放大。
HTAP 混合事务和分析处理消除了 OLAP 和 OLTP 之间的间隔,可以更好满足实时分 析和决策需求。目前市场上的 HTAP 实现路径主要由三种:第一种在上层应用层实现混合 处理,通过 OLAP/OLTP 的松耦合和底层共享存储缩短数据同步时间,只能在数据库和应 用的整体层面呈现 HTAP 能力;第二种分别运用行存储引擎和列存储引擎进行 OLTP 和 OLAP,存储引擎在物理上进行隔离,通过分布式协议进行实时复制和同步;第三种采用 单一存储引擎,在最底层实现 HTAP,但目前仍处于技术探索阶段。第二种分离存储架构、 同一系统的 HTAP 是目前的主流解决方案。
2) 场景精细化:深耕细分领域积累行业 know-how,应用场景愈加精细化
数据分析与数据管理的应用场景在未来将持续拓展和深化。数据分析的应用将继续向 各行业领域的核心业务渗透,数据的采集、流通、分析、应用的价值闭环将持续完善。由 数据分析需求逐渐衍生出的大数据管理将逐渐改变各行业的各个价值链环节。一方面,基 于历史数据分析的销售预测、趋势分析、营销策略设计、客群画像匹配的优化建议将提高 用户的运营效率和决策效率;另一方面,基于数据分析的如 AI、大数据的应用有望带来新 商业模式、新产品形态、新应用场景的开拓,如无人驾驶、智能安防、智慧物流等。

3) 产品标准化:技术 SaaS 化、解决方案标准化打开长尾下沉市场
分析型数据库产品将逐渐实现标准化,进入下沉市场提高中小企业渗透率。受限于数 据治理需求碎片化、场景理解不够深入等因素,现阶段分析型数据库产品主要集中在大型 企业客户市场,且定制化程度相对较高。未来伴随更多业务场景能力的沉淀,分析型数据 库厂商将不断丰富产品矩阵,完善数据治理服务的深度和广度,通过产品标准化的途径降 低成本,从而提高在长尾下沉市场的渗透率。