2024年星环科技研究报告:国产大数据软件创新者,全方位赋能千行百业

  • 来源:中泰证券
  • 发布时间:2024/04/26
  • 浏览次数:936
  • 举报
相关深度报告REPORTS

星环科技研究报告:国产大数据软件创新者,全方位赋能千行百业.pdf

星环科技研究报告:国产大数据软件创新者,全方位赋能千行百业。国产大数据软件稀缺标的,深耕大数据技术。星环科技是国内领先的大数据基础软件开发商,主要提供大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具三大类基础软件产品及配套服务,助力客户实现数字化转型。拥有核心研发团队,树立技术优势。核心团队深耕大数据领域十多年,是国内最早从事大数据基础软件技术的研发和产品化的团队之一,为公司奠定坚实的研发实力基础。营收稳步上升,持续拓宽客户覆盖面。公司收入从2018年的1.13亿元增长至2022年的3.73亿元,四年CAGR达到34.8%;其中大数据与云基础平台软件业务为公司最主要的收入来源,2...

企业级大数据基础软件开发商,构建明日数据世界

深耕大数据技术,核心团队研发经验丰富

星环科技是国内领先的大数据基础软件开发商,主要提供大数据与云基 础平台、分布式关系型数据库、数据开发与智能分析工具三大类基础软 件产品及配套服务,助力客户实现数字化转型。

前十大股东情况:截止至 2023 年三季度,公司实际控制人为孙元浩先 生;前十大股东中孙元浩、范磊以及上海赞星投资中心(有限合伙)为一 致行动人,上海赞星投资中心(有限合伙)为孙元浩担任执行事务合伙 人的有限合伙企业。

公司高管拥有丰富的技术经验和管理经验,核心团队深耕大数据领域十 多年,是国内最早从事大数据基础软件技术的研发和产品化的团队之一, 为公司奠定坚实的研发实力基础。

为了建立、健全公司长效激励约束机制,吸引和留住优秀人才和核心骨 干,公司发布 2023 年限制性股票激励计划。激励计划拟首次授予的激 励对象总人数为 200 人,首次授予限制性股票 114.6191 万股,预留 10.3809 万股。

逐步形成大数据产品矩阵,树立技术优势

目前公司主要提供两大类的产品和服务: 1)大数据基础软件业务:包含基础软件产品和技术服务; 2)应用与解决方案:主要针对大数据应用场景,提供大数据存储、处 理以及分析等相关场景下的咨询及定制开发等服务的解决方案; 3)其他业务:公司根据客户及项目需求销售少量第三方软件、硬件等 其他业务。

公司以大数据基础平台软件为切入点,围绕数据的集成、存储、治理、 建模、分析、挖掘和流通等逐步发布相关新的软件产品来完善公司的大 数据产品矩阵。  2013 年发布大数据基础平台软件 TDH2.0; 2014 年发布数据智能分析工具 Sophon 的早期版本 Discover 3.0; 2017 年发布大数据开发工具 TDS 的早期版本 Transwarp Studio5.0 以及升级后的智能分析工具 Sophon 1.0; 2018 年发布数据云平台 TDC1.0 以及分布式分析型数据库 ArgoDB 1.0; 2019 年发布分布式交易型数据库 KunDB 1.0 以及升级后的大数据 开发工具 TDS。

营收持续上升,重视研发投入

营业收入快速增长,大数据与云基础平台软件业务为主要收入来源。公 司收入从 2018 年的 1.13 亿元增长至 2022 年的 3.73 亿元,四年 CAGR 达到 34.8%。2022 年,公司持续受到外部环境的影响,使得产品及服务 的交付及验收部分受到影响,给公司的业绩增长带来一定增长压力。目 前,大数据与云基础平台软件业务为公司最主要的收入来源,2022 年该 产品占营业收入达到 35.1%。

公司业务已形成一定规模的客户基础。公司营业收入主要分布在金融、 政府、能源、电信、交通等领域。其中,金融、政府是公司产品应用的 重要领域,在 2022 年收入占比分别达到 32.59%和 31.38%。

公司正处于战略投入期,前期投入较大。目前公司处于战略投入期,在 研发、销售及管理等方面持续投入较大,使得公司净利润持续为负。2022 年公司净利润为-2.72 亿元,扣非归母净利润-3.1 亿元。

公司毛利率保持较高水平。公司毛利率长期保持较高水平,2018 年-2022 年的毛利率分别为 61.61%、60.69%、58.02%、58.94%、56.54%。目 前公司整体处于品牌树立及市场开拓阶段,近几年收入结构略微变化, 毛利率较低的应用与解决方案收入占比有所提升,同时公司投入了较多 资源开拓市场,因此毛利率有所下滑。公司整体产品化程度较高,随着 公司收入规模持续增加,毛利率有望保持高水平。

持续加大研发投入。公司专注于大数据与云基础平台、分布式关系型数 据库、数据开发与智能分析工具等基础软件领域研发,坚持核心技术自 主研发和创新突破。公司持续加大研发投入,持续围绕三大基础软件产 品进行完善和优化,进一步提高产品的成熟度和竞争力。

信创正当时,公司有望迎来跳跃式发展

信创加持,国产基础软件迎来历史机遇期

为改变我国信息技术产业被国外企业垄断的局面,我国在 2006 年颁布 《国家中长期科学和技术发展规划纲要》,将“核高基”列为 16 个重大科技项目之一,标志着信创的起步。我国在数据库领域的自主创新起步 相对较晚,在传统商业数据库市场中,国外厂商进入市场较早,具有先 发优势。在过去的 20 年里,随着新技术的不断涌现,国内相关企业也 得到了快速发展,逐渐在竞争激烈的市场中展现出自己的实力和特色。

我国高度重视大数据在经济社会发展中的作用,在《“十四五”大数据 产业发展规划》中,明确提出关键核心技术取得突破,标准引领作用显 著增强,形成一批优质大数据开源项目,存储、计算、传输等基础设施 达到国际先进水平。目前国资信创节奏基本定调,国资委 79 号文全面指 导国资信创产业发展和进度,要求 2027 年前完成国产信创替代。预计在 一系列政策的强力推动下,大数据行业将迎来爆发期,为国内相关厂商 带来明确的增长机遇。

大数据行业主要解决大数据的存储、处理、分析和价值发现等问题,实 现大数据的业务价值。从产品和服务来看,大数据市场产品和服务主要 分为三个主要部分:大数据硬件、大数据软件、大数据专业服务。其中, 大数据软件部分按照产品功能的不同可以被分为:大数据管理平台、数 据应用中间件、数据智能分析工具、大数据应用四个部分。

根据中商产业研究院整理的数据显示,全球大数据市场规模由 2016 年 的280亿美元增长至2021年的649亿美元,年复合增长率约为18.31%。按细分市场来看,2016 年大数据服务是全球大数据市场最大的收入来 源,达到 111 亿美元,硬件和软件收入分别达到 88 亿美元和 81 亿美元, 大数据软件市场占比最低。近些年来,随着硬件成本的下降以及软件附 加值的提升,2021 年大数据软件收入达到 246 亿美元,超过硬件(163 亿美元)和服务(240 亿美元),成为全球大数据市场最主要的收入来源。

我国大数据行业虽起步较晚,但近几年发展速度远超于全球整体市场规 模增速。2016 年-2021 年我国大数据行业市场规模从 277 亿元增长至 849 亿元,复合增长率达到 25.11%。按细分市场来看,我国大数据软件 市场持续保持高速增长态势,2016 年-2021 年的市场规模由 64 亿元增长至 234 亿元,复合增长率达到 29.60%,随着信创及相关政策的不断 加持,未来大数据软件将在未来占据更高市场份额。

积极融入信创生态,核心产品自研代码率超过 70%

公司自主研发各类产品围绕数据全生命周期提供基础软件及服务,积极 拥抱信创。公司的基础软件产品主要包括大数据与云基础平台软件(TDH 和 TDC)、分布式关系型数据库软件(ArgoDB 和 KunDB)、数据开发与 智能分析工具软件(TDS 和 Sophon)。公司产品注重与国产软硬件生态 的兼容,已完成和飞腾、鲲鹏等国产硬件及麒麟、UOS 等国产操作系统的深度适配。

核心产品 Transwarp Data Hub(TDH) 是公司自主研发的企业级一站 式多模型数据管理平台,该产品包括多个大数据存储与分析产品,能够 存储 PB 级别的海量数据,可以处理包括关系表、文本、时空地理、图 数据、文档、时序、图像等在内的多种数据格式,提供高性能的查询搜 索、实时分析、统计分析、预测性分析等数据分析功能。根据工信部电 子第五研究所代码扫描测试报告,星环科技大数据平台 TDH 1200 万行 代码里自研代码率超过 70%。

Transwarp Data Hub(TDH)的主要组件不断由开源体系向自研体系转 换。

2014 年公司正式发布了关系型分析引擎 Inceptor,替代了开源的 Hive 和 Spark 计算引擎,用于关系型数据的统计分析。

2015 年至 2016 年,公司完成自研实时流计算引擎 Slipstream 的工作并发布了多个版本,能够支持低延时(毫秒级别)的复杂计 算,以及支持使用 SQL 语言进行应用开发,降低实时数据计算类 应用的开发难度。

2017 年发布的 TDH5.0 版本,正式发布了基于容器技术打造的新 一代云操作系统 Transwarp Cloud Operating System(简称 “TCOS”),并作为公司所有产品的统一资源管理器。

2018 年至 2019 年,公司发布了自主研发的分布式数据管理系统 Transwarp Distributed Data Management System 来管理大规模 数据的分布存取、容错和一致性,使公司开发支持新模型的数据库 时,只需要开发一个支持该模型的存储引擎系统,不再需要重复开 发完整的分布式存储服务,大幅降低软件工程成本。

2020 年公司发布 TDH 7.0,技术架构进一步升级,发布了统一的 SQL 引擎和统一的计算引擎,对接各个底层存储,形成完整的多模 型数据管理平台架构,同时也发布了基于新技术架构开发的搜索引 擎 New Search(2021 年升级改名为 Scope)。

2021 年公司发布 TDH 8.0,持续完善多模型大数据基础平台的功 能,增加了时空数据库 Spacture、时序数据库 TimeLyre、键值数据库 KeyByte 和事件存储库 Event Store,支持十种数据模型,丰 富了 TDH 的应用场景。

2022 年公司发布 TDH 9.0,支持无缝升级 ArgoDB 与 KunDB, 增强了对结构化数据分析检索能力。

TDH 大数据平台实现了从 GB 到 PB 不同数据量的多源异构数据的 快速存取、高效计算和统一管理,一站式地解决企业各类数据管理需求。 TDH 主要提供 12 款核心组件,主要包括:

Transwarp Inceptor 关系型分析引擎:可以对数百万张结构化数据 表、PB 级的海量数据进行存储和加工;

Transwarp Slipstream 实时流计算引擎:帮助用户快速开发实时数 据仓库、实时报表分析、实时智能推荐、实时欺诈检测与风险控制 等应用;

Transwarp Hyperbase 宽表数据库:支持高并发在线数据的写入与查询,帮助用户快速开发历史数据查询、业务在线检索等应用;

Transwarp StellarDB 分布式图数据库:用于快速查找数据间的关 联关系,并提供强大的算法分析能力;

Transwarp Scope :自主可控的搜索引擎;

Transwarp Spacture 时空数据库:支持大规模矢量数据、时空轨 迹数据的存储与计算;

Transwarp TimeLyre 分布式时序数据库:支持千万级实时写入、 精准时序查询;

Transwarp KeyByte 键值数据库:支持高性能缓存;

Transwarp DocStore 文档数据库:支持半结构化数据 XML/JSON、 非结构化数据图片/PDF/小文件的同时也支持结构化数据存储; 

Transwarp Event Store 事件存储库;

Transwarp Discover :专注于利用机器学习从数据中提取价值内 容;

Hippo 向量数据库:支持海量的向量式数据集的存储、索引和管理, 能够高效的解决向量相似度检索以及高密度向量聚类等问题。

公司创建了新的大数据技术架构,包括统一的 SQL 接口、统一的计算 引擎、统一的数据管理系统和统一的资源管理系统。同时公司已实现 10 种独立的存储引擎,支持业界主流的 11 种数据模型。

公司 TDH 目前已在金融、交通、政府、能源等多个行业积累了大量案例, 帮助各行业用户建设强大数据底座。未来 TDH 将为公司拓展更多行业领 域客户,助力信创产业发展。

自主研发分布式数据库,致力引领行业技术发展

技术架构不断演变,分布式+云原生日渐成为新趋势

数据库按照架构分类可分为集中式数据库和分布式数据库,随着数据量 的快速增长,数据处理需求的变化使得分布式技术日渐成为主流的解决 方案。数据管理软件技术发展历程包括以下三个阶段:

1970-2000 年:数据管理软件主要为集中式架构的关系型数据库, 其软件产品具备不可分割性、一致性、隔离性、持久性,即“ACID” 功能特性,占据了数据管理软件的主导地位。关系型数据库技术出 现在 20 世纪 70 年代,经过二十余年的发展,到 90 年代已经成熟。 市场上具有代表性的集中式架构关系型数据库产品包括 Oracle、 IBM DB2 以及微软 SQL Server 等。

2000-至今:随着互联网和计算机技术的快速发展,需要处理的数 据量更大、类型更丰富、速度要求更快,传统集中式计算架构已无 法适应数据海量、异构、多源等特点。在 2003 年至 2006 年期间, 谷歌发表了三篇重要的论文,这些论文为分布式存储和计算奠定了 坚实的理论基础。基于这些理论,行业从业者进一步发展出了 Hadoop 和 Spark 等大数据分布式系统框架,并交由 Apache 软件 基金会托管。2009 年,来自 Rackspace 的 Eric Evans 重提 NoSQL 概念,指代非关系型的分布式数据存储系统。针对于不同的场景, 分别产生了图数据库、搜索引擎、文档数据库、键值数据库等 NoSQL 数据库,代表性 NoSQL 数据库提供商包括 MongoDB、Elastic 等。

2010 年-至今:随着数字化转型的不断深入,业务场景变得越来越 复杂和多样化。在此背景下,催生了从单一数据管理系统到融合型、 多模型数据管理系统的技术需求。随着云计算技术的大规模应用, 传统各类软件产品都开始由独立部署模式向云服务模式转变。其中数据库作为信息系统核心软件,逐渐附加云化能力形成云原生数据 库,以服务的形式对外提供技术支撑。云原生数据库按照部署方式 可以分为公有云部署和私有云部署。

全球数据存储量正处于爆发式增长阶段。全球数据存储量由 2016 年的 16ZB 增长至 2021 年的 54ZB,复合年均增长率达到 27.5%,2021 年 的存储量已是 2016 年的三倍以上。

在数据量不断增长的趋势下,分布式数据库优势尽显。集中式数据库容 量受限,可扩展性较差,只可依赖更换硬件设备(纵向扩展)提升数据 库性能,由此导致更换成本高昂,无法适应大数据时代数据快速增长的 存储和处理需求。分布式数据库可通过横向扩展解决数据量日增的问题, 在可扩展方面以及成本方面具备优势。

顺应技术浪潮,自主研发分布式关系型数据库

公司在基础软件产品领域积累多年,采用新一代的分布式技术,自主研 发了分布式分析型数据库 ArgoDB 和分布式交易型数据库 KunDB。 KunDB 与 ArgoDB 均是面向云原生架构设计的新一代数据库,根据工 信部电子第五研究所代码扫描测试报告,ArgoDB 代码自主率(行数) 超过 90%。

分布式分析型数据库(ArgoDB):公司自主研发的分布式分析型闪存数 据库,可以替代 Hadoop+MPP 混合架构。支持标准 SQL 语法,提供多 模分析、实时数据处理、存算解耦、混合负载、数据联邦、异构服务器 混合部署等领先技术能力。 通过 ArgoDB 数据库可以满足数据仓库、实 时数据仓库、数据集市、OLAP、AETP、联邦计算等各种需求。

2019 年 8 月,ArgoDB 成为全球第四个通过 TPC-DS 基准测试并经过 TPC 官方审计的数据库产品。主要应用场景包括数据湖、离线数据仓库、 实时数据仓库、数据集市等。目前 ArgoDB 在银行、运营商、能源等行 业领域均有落地案例。

分布式交易型数据库(KunDB):基于分布式技术自主研发的交易型数 据库,提供完整的关系型数据库的能力,并且具备可扩展、高并发、高 可用、数据灾备等特性。KunDB 在技术上能够提供更好的可运维性、数 据一致性和可靠性保证,满足自主可控的数据系统建设的需求。

KunDB 联合信通院进行了 TPC-C 事务性能测试,TPC-C 的性能高达 180 万 TPMC(每分钟内系统处理的新订单个数),并大幅提升了 PL/SQL 的兼容度。KunDB 的优异性能支持操作型业务场景和高并发场 景的核心数据系统的构建,在金融核心交易系统、电信计费系统、电子 政务系统、医疗信息系统等行业场景成功实现落地。

分析型数据库及交易型数据库联合应用:企业内部普遍存在 OLTP 和 OLAP 混合负载的业务场景,单一数据库无法满足混合业务场景。基于现实需求,星环科技发布 KunDB 和 ArgoDB 的联合应用方案,覆盖企 业全部数据交易、分析场景。

积极布局 AI 新兴领域,打开成长空间

大模型呈现蓬勃发展态势

2016 年起,全球先后有 40 余个国家和地区将推动人工智能发展上升至 国家战略高度。2022 年 11 月 ChatGPT 的出现,带动了新一轮人工智 能浪潮,仅仅上线两个月,ChatGPT 的用户数就达到了一亿,成为了迄 今为止最快达到此用户数目的应用。

科技部新一代人工智能发展研究中心发布的《中国人工智能大模型地图 研究报告》显示:从全球已经发布的大模型分布来看,中美两国数量合计占全球总数的超 80%。据不完全统计,截止 2023 年 5 月,中国 10 亿参数规模以上的大模型已发布 79 个,我国正处于大模型快速发展期。

公司积极布局 AI 新兴领域,助力技术发展

在 AI 浪潮下,公司推出了 Sophon LLMOps,该产品是基于云原生架构 构建的企业级 AI 能力运营平台,聚焦于机器学习模型全生命周期中的模 型管理、模型部署、模型监控预警、模型评估和模型迭代等关键环节。 通过统一纳管、统一运维、统一应用、统一监控,赋予企业客户易用、 高效且安全可靠的 AI 能力运营服务,协助客户规模化管理日益增长的机 器学习模型,提升模型使用效率,降低模型集成管理成本,控制模型生 产环境风险。

同 时 公 司 也 发布 星 环无 涯 金 融 大 语言 模 型 Transwarp Infinity , Transwarp Infinity 寓意学海无涯,针对量化投研领域特定的业务逻辑, 星 环 科 技 通 过 预 训 、 提 示 、 增 强 、 推 导 范 式 的 构 建 , 实 现 了 Financial-Specific-LLM 的训练,且基于大模型的事件驱动与深度图引 擎,实现了对事件语义刻画、定价因子挖掘、时序编码、异构关系图卷 积传播等功能,进一步丰富了应用场景、提高了应用上限。

星环无涯的整体框架不仅包含了基于 prompt 进行预训微调好的金融 大语言模型,且结合金融大模型分析与生成能力,通过搭建事件驱动引 擎、叠加深度图计算、耦合星环量化投研框架,共同实现了对事件语义 刻画、定价因子挖掘、时序编码、异构关系图卷积传播等功能,进而构 建了包含事件冲击、时序变化、截面联动和决策博弈等多个维度的量化 投研新范式。同时,结合 LangChain 模型,为开发人员提供更加多样的应用程序支持。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至