非结构化数据集成包括哪些内容?

非结构化数据集成包括哪些内容?

最佳答案 匿名用户编辑于2023/06/07 08:55

非结构化数据集成是数据共享协同和价值挖掘的前提,主要包括数据分布、采集技术、采集策略和数据集成四个方面内容。

1.数据分布

非结构化数据常见的三种数据分布文件类型是离散文件、体系文件和应用系统文件。其中离散文件的特征体现为个人拥有的大量有价值并且未整理的文档,如各类记录、邮件、参考资料、工作文件等;体系文件主要为体系化文件、合同、纸质文件、网页内容等,如企业知识、法规规范、各类单据等;应用系统文件特征体现为需要进行归档与索引构建以及长期保持利用的文件,如审批单、财务报销单、图纸、项目资料、技术资料、产品资料等。

2.采集技术

非结构化数据采集技术主要包括业务系统适配器、集成开发平台和捕获工具。其中,业务系统适配器是指已经形成的与各种应用系统的连接器,基于这些适配器,可以实时或通过计划任务采集各种类型非结构化数据。集成开发平台包括软件开发工具包、业务组件、应用编程接口、可开发组件。捕获工具则包括打印一体机采集器、电子邮件监控、页面抓取工具、爬虫工具、虚拟打印等。

为了实现采集的有效管理,采集平台需要可视化、可配置化和可监控化,也需要对全内容进行采集,其中包括主业务文件、附属文件、关联文件、元数据、日志信息和数据权限等。

3.采集策略

非结构化数据集成的数据采集策略从非结构化数据源头出发,将非结构化数据管理系统与业务系统深度融合,将采集策略前置到业务中去,以实现采集的时效性、准确性和内容完整性。

4.数据集成

非结构化数据集成主要分为两方面,一是为各种应用系统提供实时的、平台型的非结构化数据统一存储服务;二是为新业务应用输出各种非结构化数据服务,从而形成数据与业务的双向融合。

参考报告

非结构化数据管理知识与实践( 2023版).pdf

非结构化数据管理知识与实践(2023版)数据,是当今时代企业生产生存的命脉。企业的持续经营必将产生大量数据,而海量的数据也无时不刻地在影响着企业的经营。无论是在企业的战略层面还是执行层面,数据管理对于企业决策都具有举足轻重的作用。在战略层面,基于数据管理能够有效梳理企业数据资源,支撑企业优化战略决策,提前洞悉业务中存在的潜在问题,把握市场,拓展机遇,抢占竞争先机;而在执行层面,通过数据管理能够帮助企业解决现有业务中的数据责权不清、数据标准不明、管理流程混乱、数据质量低下等常态问题,形成标准化的数据利用流程,提升运营效率,培养企业的核心竞争力。

查看详情
相关报告
我来回答