- 我们走进了数据治理时代[2017-02-23]
- BI数据仓库构建和BI数据分[2017-02-23]
- 数据治理之数据质量(一)[2017-02-23]
- 数据质量[2017-01-23]
我们走进了数据治理时代
【文章摘要】数据治理在“大数据”成为热词后,更加被业界关注。大数据带来的一个显著变化是,大量数据来自于数据中心之外,包括笔记本电脑、平板电脑、智能手机以及传感器、社交网站等。数据量激增,数据类型也变得多样。数据散落在不同的系统中,哪些数据是可信的?数据是否面临更大的风险?如何从海量数据中获得洞察?大数据时代,企业更加需要数据治理。
数据治理在“大数据”成为热词后,更加被业界关注。大数据带来的一个显著变化是,大量数据来自于数据中心之外,包括笔记本电脑、平板电脑、智能手机以及传感器、社交网站等。数据量激增,数据类型也变得多样。数据散落在不同的系统中,哪些数据是可信的?数据是否面临更大的风险?如何从海量数据中获得洞察?大数据时代,企业更加需要数据治理。
“数据治理是目前一个比较新兴的、正在发展的学科,目前业界对它的定义还不完全一样。”IBM全球企业咨询服务部业务分析与优化团队副合伙人谢国忠说,数据治理(DataGovernance)是围绕将数据作为企业资产而展开的一系列的具体化工作。数据是企业最大的价值来源,同时也是最大的风险来源,数据管理不佳通常意味着业务决策效果不佳以及更可能面临违规和失窃。而利用规则的可信数据有助于组织的业务创新提供更好的服务,提升客户忠诚度,减少合规及报表要求所需工作,并提升创新能力。
目前国内企业数据治理成熟度较低
谈到数据治理的实践,IBM自身就是数据治理的典型代表。1992年之前,IBM在数据治理方面存在很多问题,没有明确的可依赖的数据源,没有明确的数据所有人,数据质量低下。1995年,IBM在ERP里面做了业务数据标准,将所有的业务定了15大类业务标准、79个分类子业务标准,这样全公司看到的是一个统一的业务定义。2004年,IBM成立了数据责任人论坛,2005年成立了数据治理委员会,之后又成立数据审核委员会。1992年,IBM全球有128个CIO、155个数据中心、80个Web拓展中心、31个不同的网络、16000个应用。通过数据治理,IBM简化了基础架构,并降低了管理的复杂度。2007年,IBM全球只有一位CIO,主数据中心变成了6个,Web拓展中心变成全球统一的网络,16000多个应用变成4000个左右。
在此基础上,IBM在2004年联合业界多家公司和学术研究机构,成立了数据治理论坛,并在此次论坛上,制定包括四大领域11个要素的数据治理框架和方法,来指导数据治理工作的开展。框架包括产出领域:数据风险管理、价值创造;驱动领域:组织机构/流程、管理制度、数据责任人;核心领域:数据质量管理、信息生命周期管理、安全/信息披露/合规;支撑领域:数据模型/数据架构、元数据/主数据/数据标准、质量审计与报告。
近年企业主数据管理需求突出
数据治理涉及11个要素,主数据管理就是其中非常重要的一环。加强主数据管理是企业获得一个完整、可信的数据视图的必经途径。
数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单等。主数据管理旨在从企业的多个业务系统中整合最核心的需要共享的数据,集中进行数据清洗,并以服务的方式把统一、完整、准确的主数据分发给企业内的操作型应用和分析型应用,包括业务系统、业务流程和决策支持系统等。
MDM最核心的任务是作为企业数据的源头和面向BI分析。此外,MDM还要反映主数据之间的关联性,比如客户与产品之间的关系、客户与客户之间的关系等。在数据仓库里,你很难找到这种关联性,而MDM能够轻易做到这些。”MDM和数据仓库之间也有区别,比如它们处理的数据类型不同,MDM是偏交易型的系统,而数据仓库属于分析型的系统。MDM和数据仓库两者可以互相促进,互为补充。MDM的灵活数据模型可让IT团队在任何数据域中实施MDM,并可在同一数据模型中添加其他域及定义不同数据域之间的关系。MDM可以在企业内部实施,可以作为多个MDM实例之间的全局性枢纽,部署于联合MDM体系架构内。
企业数据治理的两大阵营
此外,数据治理主要分为两大类型,第一是金融、电信、保险、教育机构、大型电商等企业,此类企业的特点是以客户数据为主,且日增数据量大,后续清洗要求较高。这个行业的数据治理较适合于国外从客户数据治理发展来的软件公司,主要代表有,informatica、sap、orcale、ibm等。
第二是传统实体企业,如能源矿山、加工制造、贸易物流等,此类国内企业对编码要求较高,注重数据源头的一劳永逸式清洗。国内重点代表为中翰软件(国内唯一专业、专注数据治理)、石化盈科等。