元数据治理:解决用数难、用数烦的困境

 大数据时代的到来,让越来越多的企业将数据视为企业的重要资产。如何提升数据价值是每个企业当下面临的一个难题。

元数据,应该是做数据治理的同学们最熟悉的内容了,但其他小伙伴可能并不那么了解。今天分享一下元数据相关的内容。

01—什么是元数据

首先,什么是元数据呢?

举个例子,比如我们去图书馆借书。面对图书馆茫茫多的书籍,你怎么找呢?最便捷的方法就是去图书馆系统上,按照作者、书名,或者出版社等等信息,查询一下,然后找出这本书的存放位置 。

这些书我们就可以理解为是我们的数据,而图书管理系统上提供的这些作者、书名、出版社等信息就是我们的元数据。

正式点的定义:

元数据,其实是“用来描述数据的数据”,简单来说就是反映了数据的交易、事件、对象和关系。

另外,顺带补充一下什么是数据。大家通常理解的数据主要是狭义上的数据,都是数字、数值。但广义上,其实含义更丰富一些:

数据是以文本 、数字 、图形、图像、声音和视频等格式对事实进行表现,反映了真实世界的交易 、事件、对象和关系 。

02—元数据的类型

从具体的数据类型上,可以细分为模型元数据、生产元数据、实时元数据、指标元数据、标签元数据、维度元数据、API元数据等。

概念看似很抽象,其实我们之前也有所接触。

其中指标元数据,可以看看之前的《指标字典搭建》;标签元数据和标签系统也可以是结合在一起的,可以参考《海量标签如何系统化管理》。

和之前分享的最主要的差别在于,之前的系统更多的是从业务角度出发,元数据治理更多的从数据角度出发。所以两者其实是可以从某个程度上达到统一。

以上的几个元数据类型,可以再提炼成几个大类:

技术元数据:一般包括物理数据库的表和字段,数据库的 ETL(抽取、转换和装载作业信息等。


业务元数据:一般包括报表指标的定义说明、业务规则、数据标准等。


管理元数据:也叫操作元数据,包括审计结果、错误日志、调度异常日志等。

其他的元数据类型,后面我们慢慢分享。

03—元数据治理的意义

元数据的治理,有什么价值与意义?

其实从上面举的例子中就能想到一二。有了图书的管理系统,找书的效率大大提升了,对不?也做了更好的图书管理,对不?所以,元数据治理的重要价值,主要有以下几点:

(1)解决用数难的问题

作为经常数据打交道的人,下面的场景应该不陌生:

总结起来,主要有这么几个难题:

不知道有什么数据

不知道数据到底在哪

不知道数据应该如何使用

通过实施元数据的治理,可以很好解决以上问题

(2)提升数据价值

关于数据资产、数据治理、元数据治理有以下的关系:

大数据时代的到来,让越来越多的企业看到了数据的价值,将数据视为企业的重要资产,已经成为业界的一种共识。如何提升数据价值是每个企业当下面临的一个难题。

想要真正发挥数据资产的价值,就必须要对这些数据进行管理。而数据治理正是实现这一目标的一种手段。

数据治理中,元数据的治理是我们数据治理中最重要的一环,通过解决“用数难的问题,达到提升数据价值的目的。

04—如何进行元数据的治理

如何进行元数据的治理呢?

(1)元数据成熟度模型

下图是随着业务的发展,元数据管理的分阶段情况:


初始状态(L0):元数据分散于日常的业务和职能管理中,由某个人或某一组人员在局部产生或获取,并在局部使用,其他人如果想获得该元数据需要找到相应的人进行沟通获取。

从属业务系统(L1):在这个阶段,随着各个业务系统自动化构建完成,相应的元数据也随着需求整理、设计、开发、实施和维护等过程被各个业务系统孤立的全部或部分管理起来

元数据统一存储(L2):中央存储库的构建,使得元数据在整个企业层面可被感知和搜索,极大地方便了企业获取和查找元数据。

元数据集中管理(L3):在 L2 的基础上做了改进,增强了元数据的集中控制,局部业务单元或开发小组如不事先通知其他人,将无法对元数据进行修改。

元模型驱动管理(L4):在 L3 的基础上,通过构建元模型以及元元模型,优化各业务单元之间的各种冲突和各种副本,创建、管理和共享业务词汇表和分类系统(基于主题领域的层次结构)。

元数据管理自动化(L5):元数据管理实现高度自动化, 当逻辑层次元数据变更时,会被传播到物理层次,同样物理层次变更时逻辑层次将被更新。

(2)DAMA 国际的标准方法

按照DAMA国际标准的方法,可以将治理过程分为以下十个步骤:

(3)从元数据应用角度切入

从应用的角度出发,可以参考以下过程:

关于元数据的内容先分享这些,其他数据治理的内容,敬请关注

-END-

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注