数据治理是数据资产入表前的重要环节之一。
1.数据治理的定义
数据治理是企业中涉及数据使用的一套管理行为。它由企业数据治理部门发起并推行,数据治理旨在制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。根据国际数据管理协会(DAMA)的定义,数据治理是对数据资产管理行使权力和控制的活动集合。而国际数据治理研究所(DGI)则将其定义为,通过一系列信息相关的过程来实现决策权和职责分工的系统。 简单来说,数据治理主要涉及到数据的整个生命周期管理、数据质量管理、数据安全性和合规性管理等多个方面,它确保了企业能够有效地管理和控制数据资产,以便最大限度地发挥其价值并降低潜在风险。
2.数据治理的目标
数据治理的目标是使企业能够将数据作为资产进行有效管理。它提供了一套治理原则、制度、流程和整体框架,设立了管理指标,以监督数据资产的管理,并在数据管理过程中指导各层级的活动。数据治理的目标主要包括以下几个方面:
一是提高数据质量:通过规范数据采集、存储、处理等流程,建立数据清洗、去重、校验等多种机制,以提高数据的准确性、完整性和一致性。 二是促进数据共享:在保障数据隐私和安全的前提下,打破不同部门间的信息孤岛,促进数据共享,实现跨部门、跨领域、跨企业的数据互通,提升业务流程效率和数据应用价值。三是保障数据安全:通过建立完善的数据安全体系和安全策略,降低数据泄露、数据丢失等风险,提高数据的安全性和可靠性。 四是优化业务流程:通过数据治理,规范各项业务流程和数据标准,简化流程,提高效率,降低成本,从而实现业务运营的顺畅和高效。 五是符合法规要求:遵守相关法规和合规要求,确保数据的合法合规使用。 通过数据治理,实现提高数据的质量、保障数据安全、确保数据合法合规、促进数据共享等目标,为数据资源入表提供前提条件。
3.数据治理的价值
数据治理的主要价值在于确保数据在企业中得到有效的管理、利用和保护,从而支持企业的战略目标、提高效率、降低风险,并推动创新和竞争优势的实现。这些价值因企业的特定需求和行业而异,但数据治理通常被认为是数据管理的核心组成部分,对企业的长期成功至关重要。 数据治理价值主要包括以下几个方面:一是数据合规性和法律遵守:数据治理有助于确保企业的数据处理活动符合法律法规和行业标准。这可以降低法律风险,避免潜在的罚款和法律诉讼。
二是数据质量提升:数据治理通过定义数据质量标准和规范,有助于提高数据的准确性、完整性和一致性。三是决策支持:数据治理确保数据可用并易于访问,以支持企业内的决策制定过程。高质量、高一致性的数据有助于制定更明智的决策,从而降低了因不准确或不完整数据导致的风险。四是效率提升:数据治理有助于消除数据冗余、提高数据利用率和降低数据存储和管理成本。五是创新和竞争优势:通过更好地理解和利用数据,数据治理可以促进创新,并帮助企业更好地适应市场变化,增强企业的竞争优势。 六是风险管理:数据治理有助于识别和管理数据相关的风险,包括数据泄露、数据丢失和不当使用等风险,同时可提高企业的数据安全性。 七是数据共享和合作:通过明确数据的定义、规则和权限,数据治理可以促进数据在企业内和与合作伙伴之间的共享。八是提高数据文化:数据治理有助于在整个企业中建立数据意识和数据驱动的文化,使员工更好地理解数据的价值和用途。
4.数据治理资源管理体系
4.1 数据资源盘点
通过对数据资产盘点,可以全面了解企业所拥有的各类数据资源的数量、类型和分布情况,进而明确各类数据的属性和与其他数据的关系。 在此基础上,企业可以进一步确定各类数据资源的价值,结合数据质量、业务需求、数据安全性等多方面因素进行评估。例如,对于某些高度敏感的数据,如财务数据、人力资源数据等,其价值可能较高,因为它们对于企业的业务发展和决策制定具有重要意义。
通过数据资源盘点,还可以明确每类数据资源的业务归属和责任人,这有助于在后续的数据治理过程中更好地管理和维护数据。同时,还可以了解数据的存储位置和访问权限情况,从而更好地控制数据的安全性和合规性。数据资源盘点的步骤主要包括以下几个方面:一是确定盘点的目的和范围。首先需要明确数据资源盘点的目的和范围。例如,是为了了解数据的现状、发现新的数据资源、评估数据质量还是其他目的。同时,还需要明确数据资源的范围,包括数据的类型、所属部门、地域等信息。二是制定盘点计划和时间表。根据盘点的目的和范围,制定相应的盘点计划和时间表。需要明确盘点的方法、人员分工、时间节点等信息,并选择合适的技术和工具来支持盘点工作。三是收集和整理数据资源信息。对每一种类型的数据资源进行详细的收集和整理。例如,对于数据库资源,可以通过访谈数据库管理员、查阅数据库文档等方式来收集数据资源的名称、类型、访问地址等信息。同时,还需要了解每类资源的访问状态、使用情况等信息。 四是数据资源的清点和记录。对每一种类型的数据资源进行详细的清点和记录,例如数据库中的表数量、数据量、数据文件的大小和个数等。需要确定数据资源的数量和状态,并对数据进行必要的分类和分层管理。
4.2数据资源目录
数据资源目录是数据资源管理体系中的重要环节,是为了清晰地展示企业或组织内部的各种数据资源的信息,为用户提供方便快捷的数据访问和查询服务。数据资源目录通常伴随数据资源盘点而产出。主要包括以下几点:一是数据资源目录的构建。通过数据资源盘点,收集并整理出企业或组织内部的各种数据资源信息,包括数据的类型、名称、访问地址等,构建数据资源目录,并对数据进行分类和分层管理,例如按照数据的来源、处理过程、主题等进行分类,或者按照数据的层级结构进行分层管理。 二是数据资源目录的存储和维护。数据资源目录需要存储在一个方便访问的位置,例如企业内部网络、云存储等。同时,还需要对数据资源目录进行定期的更新和维护,例如当数据资源发生变化时及时更新目录信息,以确保其准确性和完整性。三是数据资源目录的访问方式。数据资源目录应该支持多种访问方式,例如通过浏览器、命令行、API 接口等访问方式进行查询和访问。同时,还需要设置相应的访问权限和安全性控制,例如身份认证、授权控制等,以保证数据资源目录的安全性和稳定性。 四是数据资源目录的元数据管理。数据资源目录中可以包括数据的元数据信息,例如数据的来源、数据的格式、数据的主题等。这些元数据信息可以帮助用户更好地了解和掌握数据的含义和作用,同时也可以用于数据的分析和挖掘。因此,数据资源目录还需要支持元数据的管理和维护。
(1)数据资源属性 数据资源属性有助于我们更好地了解和掌握每种数据资源的具体情况,例如数据的来源、数据的处理过程、数据的格式等。同时,数据资源属性还可以用于管理和控制数据的访问和使用,例如设置数据的访问权限、数据的共享范围等。数据资源属性可以从不同的角度进行定义和分类。不同的应用场景下可能会有不同的划分方式和标准。同时,数据资源的属性也可能随着技术的进步和应用场景的变化而发生变化。以下主要以三种常见的角度来对数据资源属性进行定义和分类:
一是根据数据的特征和维度。结构化数据资源和非结构化数据资源。结构化数据资源是指具有固定格式和有限可变性的数据,例如数据库中的数值型数据、字符型数据等。非结构化数据资源则是指没有固定格式或可变性更高的数据,例如文本、图像、音频、视频等。静态数据资源和动态数据资源。静态数据资源是指相对稳定、不经常变化的数据,例如历史数据、基础数据等。动态数据资源则是指经常变化、不断更新的数据,例如实时监测数据、用户行为数据等。 二是根据数据的处理过程和方式。数据采集、存储、传输、处理等环节的属性,例如数据的来源、数据的格式、数据的处理方式、数据的存储方式等。数据挖掘、分析、可视化等环节的属性,例如数据的挖掘算法、数据的分析模型、数据的可视化展现方式等。 三是根据数据的价值和作用。涉及数据资源的业务属性和技术属性。业务属性包括数据的业务定义、业务规则等,技术属性则包括数据的计算机存储和处理方式等。涉及数据资源的经济属性和非经济属性。经济属性是指可以通过市场交易或商业化运营创造价值的数据资源,例如共享单车骑行数据可以成为企业的经济资源。非经济属性则是指不涉及市场交易或商业化运营的数据资源,例如个人信息、政府公开信息等。
(2)数据资源血缘关系 数据资源血缘关系是指各种数据资源之间的依赖关系和连接方式,即数据的来源、处理过程和结果之间的关系。通过了解数据资源之间的血缘关系,可以更好地理解数据的流向和转换过程,从而更好地管理和使用数据资源。数据资源血缘关系主要分为血缘关系的建立、维护管理和应用。一是数据资源血缘关系的建立。识别数据资源的源头。某个数据资源可能是由多个数据源整合而来,需要找出这些数据源并了解它们之间的关系。分析数据资源的处理过程。某个数据资源可能经历了多个数据处理过程,需要找出这些处理过程并了解它们之间的关系。确定数据资源的输出结果。某个数据处理过程可能产生了多个输出结果,需要找出这些输出结果并了解它们之间的关系。基于上述信息建立数据资源血缘关系图。可以使用各种图表工具来建立数据资源血缘关系图,例如ER 图、流程图、组织结构图等。 二是数据资源血缘关系的维护和管理。确保数据资源血缘关系的准确性。当数据源、数据处理过程或输出结果发生变化时,需要相应地更新数据资源血缘关系图。保证数据资源血缘关系的完整性。当新增或删除数据源、数据处理过程或输出结果时,需要相应地更新数据资源血缘关系图。对数据资源血缘关系进行定期审计和检查。定期对数据资源血缘关系图进行检查和审计,以确保其准确性、完整性和一致性。将数据资源血缘关系图集成到数据资源管理体系中。将数据资源血缘关系图作为数据资源管理体系的一部分,与其他数据资源管理环节进行集成和整合。