支撑企业信用大数据类平台业务的关键技术有哪些?

支撑企业信用大数据类平台业务的关键技术有哪些?

最佳答案 匿名用户编辑于2022/12/01 15:09

企业信用大数据类平台的关键技术支撑主要包括数据采集、数据 处理、数据存储、数据呈现、运维监控在内的 5 个部分。

1.定制化采集系统提升数据采集效率

企业信用大数据类平台除了会收集系统产生的日志以及业务数 据库产生的数据,还需要从众多公开的数据源采集多维海量的涉企数 据,数据采集源主要包括政府公开数据、企业官网数据、第三方机构 数据和线下纸媒数据。企业信用大数据类平台往往会根据采集任务及 业务需求搭建定制化的数据采集系统实现高效持续的数据采集,使用 数据收集引擎实现对各来源数据的标准化输出,再根据需要将数据暂 存到数据库中或直接交由大数据处理系统执行数据处理。

数据采集系统主要负责自动化的采集海量数据,同时保证采集工 作的高效性、及时性及稳定性。数据采集系统技术实现常用的编程语 言有 Python、Java、Go 等,其中主流解决方案是基于 Python 的 Scrapy 框架,针对不同的数据来源及数据类型使用批量采集或实时 采集的形式,使用多线程或协程技术并引入分布式架构保证采集工作 的高效率,开发模块化的中间件应对采集过程中可能遇到的各种情况, 同时开发采集系统的监控与运维平台并基于对采集系统的日志分析 实现采集系统的持续监控运维。

数据收集引擎主要负责动态地收集各种来源的数据,并在对数据 进行解析、转换后输出数据,常用的数据收集引擎如 Logstash、 Flume 等。在通过数据收集引擎完成数据的标准化输出后,企业信 用大数据类平台一般会根据数据的来源以及用途,以离线同步或实时 同步的形式将数据暂存到存储系统中,或者直接通过网络通讯将数据 交由大数据处理系统进行数据处理操作。

2.大数据处理系统升级优化数据处理流程

数据处理负责从采集到的数据中挖掘出关键信息,并在进行数据 清洗后将数据存储到存储系统当中。当前大数据处理系统主要呈现云 原生、低代码化的趋势。企业信用大数据类平台利用云原生思想,基 于众多的大数据技术组件,结合批处理和流处理的分布式计算框架, 实现了大数据处理系统整体架构。根据业务需求设计实现 AI 算法并 将其部署在分布式计算框架上运行,提取采集到的关键信息,支撑后 续业务。通过对统计、机器学习、流程处理等能力的模块化封装实现 大数据处理系统的功能模块化。基于低代码思想搭建数据开发平台, 降低数据开发门槛,提高大数据处理系统能力复用性的同时更好地为 业务赋能。

传统的大数据处理系统往往需要借助复杂的分布式计算框架,使 用繁杂的大数据技术组件以云上部署的方式搭建大数据处理系统,存 在成本偏高和效率偏低的问题。企业信用大数据类平台基于云原生思 维,使用 Docker+Kubernetes 以开源堆栈的形式进行容器化部署, 基于微服务架构设计大数据处理系统架构,以提高灵活性和可维护性, 借助敏捷方法、DevOps 思维实现系统的可持续迭代和运维自动化, 利用云平台设施实现弹性伸缩、动态调度、优化资源利用率。在此基 础上,企业信用大数据类平台将批处理或流处理的分布式计算框架以 及关键的大数据技术组件部署在云端上,完成大数据处理系统整体架 构的搭建。然后,企业信用大数据类平台基于业务需求设计实现相应 的 AI 算法,并将其部署在分布式计算框架上运行。

大数据处理系统往往需要提供诸如机器学习、流程处理、数据格 式转换、文本情感分析等能力辅助数据处理,企业信用大数据类平台 结合 Serverless 的理念与云原生技术,将功能的实现代码封装成函 数接口,大数据处理系统按需调用接口,这种功能模块化的系统设计 方法极大地提升开发效率,降低了开发成本,同时为系统后期的使用 及继续开发提供了便利。

大数据处理系统需要对后期的数据开发工作提供全方位的支持, 从而实现数据价值的深度挖掘,而传统的数据开发工作大多通过直接 调用种类繁多的大数据开源技术组件来进行,难以实现对业务需求的 快速响应,因此数据开发的门槛亟需降低以加速数据与业务的融合。 企业信用大数据类平台基于低代码的理念搭建数据开发平台,通过抽象大数据开发过程中常用的技术和流程,屏蔽数据开发任务的技术细 节以及提供统一的集成开发界面降低开发门槛。与此同时,开发平台 统一对各数据开发项目进行管理和资源整合,不仅可以提升数据开发 流程的透明度和规范性,而且可以增强各组件在项目间的可复用性, 大大降低数据的开发成本。

3.数据存储方式变革释放数据开发潜能

在完成数据处理流程后,企业信用大数据类平台需要根据数据类 型和自身业务需求,选择合适的数据存储方式,将数据存储起来支撑 后续业务实现。

提供数据存储功能的软件系统起源于 20 世纪 60 年代的数据库, 70 年代出现的关系型数据库是沿用至今的数据存储计算系统,80 年 代末提出的专门面向数据分析决策的数据仓库理论则成为此后很长 一段时间中发掘数据价值的主要工具和手段。2000 年前后随着互联 网的高速发展,数据量急剧增大,数据类型愈发复杂,数据处理需求 不断提高,由此面向非结构化数据的 NoSQL 数据库系统,分布式存 储计算架构成为主流,MPP 架构也在此时开始流行。而随着 2010 年前后移动互联网推动大数据的进一步发展,对实时交互性的需求使 得以 Storm、Flink 为代表的流处理框架应运而生,对庞杂的不同类 型的数据进行统一存储使用的需求催生了数据湖的概念。随着云计算 的深入应用,有着资源集约化和应用灵活性优势的云原生概念逐步产 生,作为对大数据技术极度敏感的行业之一,企业信用大数据类平台的数据存储方案也开始向着云原生的方向不断发展,使用数据湖与数 据仓库一体化的云原生湖仓用于数据存储。

数据湖以集中方式存储各种类型的数据,提供弹性的容量和吞吐 能力,能够覆盖广泛的数据源,计算与存储分离,支持多种计算与处 理分析引擎直接对数据进行访问,但数据湖往往不支持事务处理,数 据体系松散,性能优化度一般,不能保证数据质量。数据仓库则更适 合结构化数据,计算与存储绑定,数据体系治理较为明晰,但数据仓 库往往只向特定的计算与处理分析引擎开放访问,不适合非结构化数 据存储。基于云原生思想,云原生湖仓将各种类型的数据统一起来, 构建在数据湖低成本的数据存储架构上,同时集成数据仓库的数据处 理和管理能力,支持多数据类型、计算存储分离、多类型工作负载, 提供丰富的 API 支持。

4.可视化技术赋能数据呈现方式多样化

可视化技术将碎片化的数据转换为具有特定结构的知识,对海量 数据进行归纳总结,企业信用大数据类平台使用可视化技术为数据呈 现赋能,将数据以更专业更全面的形式呈现给用户,为用户决策提供 支持。企业信用大数据类平台一般通过网页、APP 等途径为平台用 户提供数据服务,通过数据查询分析工具为平台业务提供支持,可视 化技术的发展带来了更多的数据呈现形式,为用户决策支持注入了更 多助力。传统的可视化技术主要将数据以简单图表的形式呈现给用户, 但近年来数据量的爆炸式增长和大数据技术的不断发展对可视化技 术提出了新的挑战,各种可视化技术和大数据可视化平台不断涌现, 助力数据呈现蓬勃发展。

专注于图结构数据的图分析技术为数据可视化呈现注入活力。图 分析技术是专门针对图结构数据进行关联关系挖掘分析的一类技术, 涉及到对图模型数据进行存储和查询的图数据库、对图模型数据应用 图分析算法的图计算引擎、对图模型数据进行抽象以研究展示实体间 关系的知识图谱等技术,通过在大数据系统中组合使用图计算引擎、 图数据库和知识图谱,企业信用大数据类平台对实体间存在的未知关 系进行探索和发掘,充分获取其中蕴含的图结构关联并可视化地呈现 给用户。

大数据可视化工具为数据可视化呈现提供技术支持。大数据可视 化工具提供了包括常规图表、文本可视化、网络图可视化、时空数据 可视化、多维数据可视化在内的多种数据呈现形式。当前行业中常用的基于 Web 的可视化工具包括 D3.js、ECharts 等,它们为 PC 和移 动设备提供了丰富的可视化技术支持,企业信用大数据类平台往往会 使用它们实现面向用户的数据可视化呈现。此外,大数据可视化工具 如 Tableau、Qlikview、Kibana 等,它们提供了低门槛的交互式界 面、集成了机器学习与数据挖掘的功能模块、支持与动态数据和内存 数据的实时连接,企业信用大数据类平台往往会将该类可视化工具部 署在大数据系统中,为平台内部的数据监控与分析提供便捷的可视化 技术支持。

5.集群管理及数据安全技术保障系统安全

企业信用大数据类平台基于大量的计算机软硬件及关键技术开 发了支撑其主要业务的大数据系统,系统的稳定性和数据的安全性对 平台来说尤为重要,但系统的高复杂度往往会导致系统稳定性及数据 安全性难以有效保障。为应对该问题,企业信用大数据类平台在大数 据系统中部署集群管理工具助力系统运维,使用数据安全技术保障数 据安全。

大数据系统中常用的集群管理工具主要包括分布式协调工具、集 群资源管理工具、集群部署及监控工具。Zookeeper 是最常被使用 的分布式协调工具,它是 Hadoop 和 Hbase 的重要组件,提供了包 括配置维护、域名服务、分布式同步、组服务等在内的诸多功能,保 证了集群的高可用性。集群资源管理一般基于适合自动化部署的开源 系统配合集群资源管理器实现,其中一种常见的解决方案是 “Kubernetes+Hadoop Yarn”。Kubernetes 也称为 K8s,是一个用于自动化部署、扩展和管理容器化应用程序的开源系统,Hadoop Yarn 是一个通用资源管理系统和调度平台,为上层应用提供统一的 资源管理和调度,可解决单点故障及单点压力过大的问题,实现资源 管理与任务调度的解耦。常用的集群部署与监控工具有 Cloudera Manager、Netdata、Ambari 等。以 Cloudera Manager 为例, 它提供了集群节点添加或删除、集群健康情况监控、集群问题诊断、 Hadoop 多组件整合等功能。多种集群管理工具的协同使用极大地提 高了大数据系统的运维效率,降低了运维成本,保障了系统稳定运行。

在数据安全事件频发的当下,保障大数据系统的数据安全显得尤 为重要,数据安全技术是保障数据安全的关键手段。访问控制、身份 识别、数据加密、数据脱敏等传统的数据安全技术正积极向更加适应 大数据场景的方向不断发展。

隐私计算作为保障数据安全流通的重要手段,主要分为多方安全 计算和可信硬件两大流派。其中多方安全计算基于密码学理论,可以 实现在无可信第三方的情况下安全地进行多方协同计算。可信硬件技 术则依据对安全硬件的信赖,构建一个硬件安全区域,使数据仅在该 安全区域内进行计算。此外,还有联邦学习、共享学习等通过技术手 段平衡了安全性和性能的隐私保护技术,也为大数据系统中的机器学 习和数据挖掘提供了新的解决思路。

零信任概念作为对传统网络边界保护方法的改进,其基本思想是 在局域网络内外部均不设置安全区域或可信用户,将所有操作均视为 不可信任。围绕零信任的概念、设计、实施,各界提出了多种解决方 案,如轻量级零信任网络访问模型,所有网络访问均遵循最小资源原 则,被广泛用在企业信用大数据类平台的大数据系统中。

参考报告

企业信用大数据行业发展研究报告.pdf

企业信用大数据行业发展研究报告。市场经济首先是信用经济,健全的企业信用体系对促进国民经济循环高效畅通、构建新发展格局具有重要意义。建设完善的企业信用体系,有利于优化资源高效配置、保障供需有效衔接、营造良好营商环境。《社会信用体系建设规划纲要(2014—2020年)》、《关于推进社会信用体系建设高质量发展促进形成新发展格局的意见》等政策均明确指出社会信用体系建设的重要性。企业信用大数据作为一种技术手段,有利于帮助相关机构识别、评估企业信用风险。近年来,企业信用大数据行业生态逐步丰富,应用场景不断拓展,推动完善社会信用体系建设。一方面,国家在信息保护和数据安全领域的一系列政策法规形成日...

查看详情
相关报告
我来回答