一文读懂数据标准中的属性定义与元数据的区别
最近在做项目过程中发现一个问题:有些同事经常把指标数据标准中的业务属性、技术属性、管理属性当做业务元数据、技术元数据、管理元数据或者在数据指标标准定义的时候直接分为业务元数据、技术元数据和管理元数据。这就导致无论是信息管理的技术部门还是经营管理的业务部门总是一头雾水,难以厘清。下面我们谈谈指标数据标准中的属性和元数据类别的联系和区别。
一、元数据的定义及分类
参照国际数据管理协会《DMBOK数据管理知识指南》的说法,我们看看元数据及分类。
元数据最常见的定义是“关于数据的数据”。元数据通常分为三种类型:业务元数据、技术元数据和操作元数据。
在信息技术之外的领域,如在图书馆或信息科学中,元数据被描述为不同的类别:
1)描述元数据(Descriptive Metadata)。描述资源并支持识别和检索,如标题、作者和主题等。
2)结构元数据(Structural Metadata)。描述资源及其组成组件之间的关系,如页数、章节等。
3)管理元数据(Administrative Metadata)。用于描述管理生命周期的元数据,如版本号、存档日期等。
这些类别有助于了解定义元数据需求的过程。
(1)业务元数据
业务元数据(Business Metadata)主要关注数据的内容和条件,另包括与数据治理相关的详细信息。业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。业务元数据的
示例包括:
1)数据集、表和字段的定义和描述。
2)业务规则、转换规则、计算公式和推导公式。
3)数据模型。
4)数据质量规则和检核结果。
5)数据的更新计划。
6)数据溯源和数据血缘。
7)数据标准。
8)特定的数据元素记录系统。
9)有效值约束。
10)利益相关方联系信息(如数据所有者、数据管理专员)。
11)数据的安全/隐私级别。
12)已知的数据问题。
13)数据使用说明。
(2)技术元数据
技术元数据(Technical Metadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据示例包括:
1)物理数据库表名和字段名。
2)字段属性。
3)数据库对象的属性
4)访问权限。
5)数据CRUD(增、删、改、查)规则。
6)物理数据模型,包括数据表名、键和索引。
7)记录数据模型与实物资产之间的关系。
8)ETL作业详细信息。
9)文件格式模式定义。
10)源到目标的映射文档。
11)数据血缘文档,包括上游和下游变更影响的信息。
12)程序和应用的名称和描述。
13)周期作业(内容更新)的调度计划和依赖。
14)恢复和备份规则。
15)数据访问的权限、组、角色。
(3)操作元数据
操作元数据(Operational Metadata)描述了处理和访问数据的细节,例如:
1)批处理程序的作业执行日志。
2)抽取历史和结果。
3)调度异常处理。
4)审计、平衡、控制度量的结果。
5)错误日志。
6)报表和查询的访问模式、频率和执行时间。
7)补丁和版本的维护计划和执行情况,以及当前的补丁级别。
8)备份、保留、创建日期、灾备恢复预案。
9)服务水平协议(SLA)要求和规定。
10)容量和使用模式。
11)数据归档、保留规则和相关归档文件。
12)清洗标准。
13)数据共享规则和协议
14)技术人员的角色、职责和联系信息。
二、指标数据定义及属性分类
参照《数据标准化:数据治理的基石》一书,数据指标是说明总体数量特征的概念,反映了企业的日常经营管理过程。一般从业务属性、管理属性、技术属性等角度制定指标标准。指标的标准化是加强数据治理和管控中最基础的工作,通过指标标准化,我们可以得到数据的业务价值,技术价值与管理价值。
一般来说,指标分为基础指标、复合指标和派生指标三类。
基础指标是表达业务实体原子量化属性的概念集合,是可以直接对单一变量的明细数据进行简单计算得到的不可进一步拆解的指标。如“收入” 。
基础指标具有如下特征:
①指标计算规则中仅包含一个变量。
②其稳定性高,业务定义、计算公式和统计口径不易随业务管理视角频繁变化。
复合指标是建立在基础指标之上,由若干个基础指标通过一定运算规则计算形成,在业务角度无法拆解,如“签约率”、“利润率”。
复合指标具有如下几种类型:
①由基础指标计算得到。
②由基础指标和复合指标计算得到。
③由复合指标再度计算得到。
维度是报表分割显示统计数值的角度,主要用来描述在业务活动中会从哪些角度对标准项进行使用和分析,体现为报表的一行或者表头中的一列。一般来说,维度具有离散化取值的特性,即取值可以枚举。维度作为观察事物的视角,并不孤立存在,而是通过与指标结合使用,可以对指标的不同方面进行对比与分析。常用维度包括时间、空间、组织机构、业务类别等。
指标数据标准规定了指标数据标准的业务属性、技术属性和管理属性标准,可应用在企业报表编制、数据资产管理等相关领域。
根据数据管控需求和业务运营情况,同时考虑标准的编制参与人员、分期制定过程、标准应用场景等诸多因素设置属性梳理优先级,其中由业务人员提供或确认的属性称为基础属性,需要结合技术人员、管理人员后续进行补充的属性称为扩展属性,如下图虚线框所示。
业务属性:是指标数据在业务层面的定义,描述数据和企业业务相关联的特性,是数据业务含义的统一解释及要求。
业务属性包括:一级主题、二级主题、三级主题、指标名称、业务定义、处理逻辑、维度、基础计量单位、参考标准、上报频度、统计时间、映射类型等。
技术属性:是指标数据在技术层面的定义,描述了数据与信息技术实现相关联的特性,是数据在信息系统项目实现时统一的技术方面定义。
技术属性包括数据类型、数据格式、数据源系统、数据源表名、数据源字段名等。
管理属性:是指标数据在管理层面的定义,描述了数据与数据管理相关联的特性,是数据管理在数据标准管理领域的统一要求。
管理属性包括:指标编码、数据主责部门、标准管理部门、颁布日期、废止日期等。
三、指标数据标准中的属性分类和元数据的分类的关系
从背景和功能上说元数据是描述和解释数据的,它有自己的功能和作用。而指标数据标准中的属性分类是为了便于技术、业务和所有者对指标数据属性的管理而划分的。两者的背景和作用是不同的。
从以上的描述我们也可以看出,在数据指标标准中定义的管理属性不宜用管理元数据替代,比如主责部门、标准管理部门是业务元数据的范畴。而管理元数据往往用在图书馆类似的场景下。所以,为了避免引起歧义和冲突的情况,建议指标数据标准中对于属性的分类还是用业务属性、技术属性和管理属性。
对于专门从事数据管理的人员来说更应从基本概念和本质厘清不同术语,比如主数据、元数据、数据元、数据仓库、数据中台、大数据、数据湖、湖仓一体、数据网格、数据编织等,这样才能更好的引导业务一起开展数据管理工作。数据管理不是IT人员唱独角戏的舞台,而是需要业务和技术更好协助,理念一致、方法一致、行动一致,才能把数据管理工作做好,更大发挥数据的价值。