- 数据架构的本质到底是什么?[2022-12-22]
- 一图理解我国数据安全监管[2022-12-19]
- 为什么《DAMA数据管理知识[2022-12-13]
- 传统企业数字化转型,怎样高[2022-12-08]
- 信息化在左,数字化在右[2022-12-07]
- 浅谈传统企业数字化转型的[2022-11-29]
- 数字化转型中管理者不能回[2022-11-23]
- 如何建立部门数据共享机制?[2022-11-17]
- 谈谈元数据和数据字典的区[2022-11-08]
- 关于数据仓库模型构建[2022-10-24]
数据架构的本质到底是什么?
一、业界看法
首先我们来看看各领域对于数据架构的具体描述:
1、DAMA:《DAMA数据管理知识体系指南 第二版》
定义:识别企业的数据需求,并设计和维护总蓝图以满足需求,使用总蓝图来指导数据集成、控制数据资产、并使数据投资与业务战略保持一致。
目标:识别数据存储和处理要求;设计结构和计划以满足企业当前和长期的数据需求;战略性地位组织做好准备,快速的发展其产品、服务和数据,以利用新兴技术中固有的商机。
构成:
(1)数据模型:企业数据模型是一个整体的、企业级的、独立实施的概念或逻辑数据模型,为企业提供通用的、一致的数据视图。企业数据模型包括数据实体(如业务概念),数据实体间的关系、关键业务规则和一些关键属性,它为所有数据和数据相关的项目奠定了基础。
(2)数据流设计:定义数据库、应用、平台和网络(组件)之间的需求和主蓝图。这些数据流展示了数据在业务流程、不同存储位置、业务角色和技术组件间的流动。
2、国标:《DCMM数据管理成熟度模型》及央行:《金融业数据能力建设指引》
定义:通过组织级数据模型定义数据需求,指导对数据资产的分布控制和整合,部署数据的共享和应用环境,以及元数据管理的规范。
构成:
(1)数据模型:使用结构化的语言将收集到的组织业务经营、管理和决策中使用的数据需求进行综合分析,按照模型设计规范将需求重新组织。从模型覆盖的内容粒度看,数据模型一般分为主题域模型、概念模型、逻辑模型和物理模型。
主题域模型是最高层级的、以主题概念及其之间的关系为基本构成单元的模型,主题是对数据表达事物本质概念的高度抽象。
概念模型是以数据实体及其之间的关系为基本构成单元的模型,实体名称一般采用标准的业务术语命名。
逻辑模型是在概念模型的基础上细化,以数据属性为基本构成单元。
物理模型是逻辑模型在计算机信息系统中依托于特定实现工具的数据结构。
(2)数据分布:针对组织级数据模型中数据的定义,明确数据在系统、组织和流程等方面的分布关系,定义数据类型,明确权威数据源,为数据相关工作提供参考和规范。通过数据分布关系的梳理,定义数据相关工作的优先级,指定数据的责任人,并进一步优化数据的集成关系。
(3)数据集成和共享:是建立起组织内各应用系统、各部门之间的集成共享机制,通过组织内部数据集成共享相关制度、标准、技术等方面的管理,促进组织内部数据的互联互通。
(4)元数据管理:元数据管理是关于元数据的创建、存储、整合与控制等一整套流程的集合。
二、架构的本质
可以看到,业界各方对于数据架构都给出了自己的解释,似乎都有道理,但又有不一致的地方,为什么呢?
我觉得这些都是表象,关键是还是要能深入数据架构概念的本质,看看它的底层逻辑到底是什么,然后才能给出更好的解答,虽然1000个人心中有1000个哈姆雷特,但一定有稳定不变的东西在那里,这就是我们需要掌握的东西,否则人云亦云,学到什么时候才是个头呢?
首先来理解架构这个概念。
先举一个例子:
在最早期,每个人都完全独立生活,衣、食、住、行等等全部都自己搞定,这个时候效率不是很高,但一旦出现了分工,力量就强大多了,因为分工后,每个人可以做最为擅长的事情,但这个时候必须要通过某些机制合在一起,让每个人能交易到自己不擅长生产的东西。
在每个人都必须自己完成所有生活必须品的生产的时候,是没有架构的,一旦产生的分工,就把所有的事情,切分成由不同角色的人来完成,最后再通过交易,使得每个个体都拥有生活必须品,这实际上就形成了社会的架构。
那么怎么定义架构呢?
把一个整体(完成人类生存的所有工作)切分成不同的部分(分工),由不同角色来完成这些分工,并通过建立不同部分相互沟通的机制,使得这些部分能够有机的结合为一个整体,并完成这个整体所需要的所有活动,这就是架构。
再拿建筑来举例加强一下理解。
最开始人类是住在山洞里,住在树上的,主要是为了躲避其他猛兽的攻击,以及减少自然环境的变化。为了完成这些目标,人类开始学会在平地上用树木和树叶来建立隔离空间的设施,这就是建筑的开始。但是完全隔离也有很多坏处,慢慢就产生了门窗等设施。建筑的本质就是从自然环境中,划出一块独占的空间,但是仍然能够通过门窗等和自然环境保持沟通。这个时候架构就已经开始了。
人们对建筑的需求慢慢的越来越多,空间的切分也会变成很多种,组合的方式也会有很多种,比如每个人住的房子,需要区分厨房、洗手间、书房、卧室等等,这个时候人们就开始有意识的去设计房子,架构师就慢慢的出现了。一切都是为了满足人的越来越高的需求,提升质量,减少时间,更有效率的切分空间,并且让空间之间更加有机的进行沟通。这就是建筑的架构以及建筑的架构的演变。
总结一下,什么是架构,就是:
(1)根据要解决的问题,对目标系统的边界进行界定。
(2)并对目标系统按某个原则的进行切分。切分的原则,要便于不同的角色,对切分出来的部分,并行或串行开展工作,一般并行才能减少时间。
(3)并对这些切分出来的部分,设立沟通机制。
(4)根据(3),使得这些部分之间能够进行有机的联系,合并组装成为一个整体,完成目标系统的所有工作。
看了上面的例子,你就能完全理解DAMA对架构做的一个更抽象的定义,即架构是对组件要素的设计,旨在优化整个结构或系统的功能、性能、可行性、成本和用户体验。在国际标准ISO/IEC/IEEE 42010:2011中,将架构定义为:“系统的基本结构、具体体现在架构构成的组件、组件之间的相互关系以及管理其设计和演变的原则”。
三、数据架构的本质
1、数据是业务的映射
建筑架构的目的是让人们住的更舒服,那数据架构的目的当然是让存储和使用数据的应用或系统能够更顺畅的运转,数据架构的目的就是“确保各类数据在企业各业务单元间高效、准确地传递,上下游流程快速地执行和运作”。
企业为实现价值创造,从输入客户要求开始到交付产品及服务给客户获得客户满意并实现企业自身价值的E2E(端对端)业务过程就是业务流。
业务对象是指业务流中涉及的人、事、物,业务对象承载了业务运作和管理涉及的重要信息,业务对象会随着事件的驱动在业务流中流转,业务对象的载体是数据,流动的信息也是数据,这些数据只有满足下游的要求,业务流才能顺畅流动起来,否则价值创造过程就会受阻或停滞。
IT承载的是业务流以及数据,IT支撑每一个作业以及作业输出的数据,通过IT实现数据之间的集成,流程的自动化。
可以这么说,业务是由业务对象和业务流构成的,数据则是业务的映射。
2、数据如何有效切分
业务一般是非常复杂的,为了方便管理业务,首先需要切分业务,每个切分的子业务域最好是高内聚,松耦合。高内聚的目的就是为了专业化,这样子业务域的运作效率就高,松耦合的目的是子业务域之间的沟通成本最好低一点,这样整体的运作效率就越高,现在DDD(领域驱动的设计)本质就是为了达成这个目标。
子业务域是专业化的业务对象的集合,对业务的要求自然映射到了对业务对象的要求,那如何实现业务对象“高内聚,松耦合”的设计呢?
这自然是数据模型要完成的事情,数据模型代表了业务切分的结果。
因此,数据模型是数据架构的核心构件,国标DCMM对于数据模型的描述非常到位,分为四个层级,主题域模型、概念模型、逻辑模型和物理模型,这些模型的设计体现了切分的思维,也体现了切分的粒度变化。
3、数据如何有效流转
切分只是完成了数据架构的第一步,切分后还需要确保各子领域能够高效的沟通,这依赖数据流的合理设计,数据流可以用于描述不同层级模型的映射关系,无论是主题域、业务实体、乃至属性层面的映射关系,体现了数据在流程和IT系统上流动的全景视图,其至少需要达成以下目标:
(1)明确数据实体在哪个源头产生
(2)数据实体出现在业务流的哪个环节
(3)数据实体出现在哪个流转系统
数据流设计要确保数据语言的一致性,促进业务流能够顺利的运转,就好比人类分工了以后,需要通过统一货币才能促进交易一样。现在数据治理特别强调数据源的一致性,要求业务数据必须认证数据源,在公司范围内统一发布,目的就是统一语言。
因此,无论是叫数据流还是数据分布,都属于数据架构的核心构件,这是业界的共识。
我认为数据模型和数据流(或叫数据分布)是数据架构最本质的东西,其让业务切分的合理并且切分后沟通顺畅。
四、数据架构的衍生
DCMM将数据集成和共享纳入数据架构的范畴,我觉得主要是业务流的内涵扩大导致的结果,因为以前的业务流仅局限在OLTP系统内部,OLAP起来后,通过集成多方业务流的数据,可以产生更有价值的数据。
这些价值数据通过共享手段反哺到业务流,可以促进业务流的进一步优化,从这个角度来讲,数据集成和共享应该纳入数据架构,因为它起到了提升沟通效率的作用,这是与时俱进的结果。
以前数据模型的设计都是一堆乱七八糟的PDM,PDM实例化后,其数据架构已经在系统实现了,但如果你要去修改完善,会发现这些数据模型的设计信息没人管、找不到、看不懂,这阻碍了数据架构的进一步优化,因此搞个数据资产目录作为指引。现在数据资产目录作用越来越大,因为数据集成和共享的时候特别需要。
数据标准的制定则让各环节数据流上的数据可以更好的保持一致性,它是数据流的增强。
DCMM将元数据管理纳入数据架构的范畴,估计跟华为也类似,只是范围进一步扩大了。
工业大数据的数据主题域属于数据模型的一部分,数据关联关系的实体、属性等属于数据模型一部分,数据血缘关系和流转关系则属于数据流一部分。
因此,虽然各领域对于数据架构的构成有不同的描述,但都包括了数据架构最本质的东西,即数据模型和数据流,至于其它的东西,那就见仁见智了。
中翰软件:专注数据治理17年(http://www.jobhand.cn)
免责声明:本网站所发布的文章为本网站原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、链接等所包含但不限于软件、资料等,如有侵权,请直接致电联系,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。