- 关于数据质量管理[2022-08-01]
- 什么是数据域?[2022-07-29]
- 到底什么样的数据才有资格[2022-07-28]
- 数据资产管理:数据目录怎么[2022-07-27]
- 数据治理能给企业带来什么[2022-07-26]
- BI和报表到底有什么区别?[2022-07-25]
- 数字化转型五步法[2022-07-22]
- 详解客商主数据的输入及相[2022-07-21]
- 人人都在强调数据安全而不[2022-07-18]
- 报表到底应该归谁管,OLAP or[2022-07-15]
关于数据质量管理
大数据时代数据产生的价值越来越大,基于数据的相关技术、应用形式也在快速发展,开发基于数据的新型应用已经成为企业信息化建设的一个重点领域。当前各大厂商、用户都在探索与数据相关的开发技术、应用场景和商业模式,最终目的就是挖掘数据价值,推动业务发展,实现盈利。目前数据应用项目非常多,但真正取得预期效果的项目少之又少,而且开发过程困难重重,其中的一个重要原因就是数据质量问题导致许多预期需求无法实现。如果没有运维数据治理,再多的业务和技术投入都是徒劳的,因为很经典的一句话:Garbage in Garbage out。运维数据治理是保证数据质量的必需手段,从全球范围来看,加强运维数据治理提升数据质量已成为企业提升管理能力的重要任务。
一、运维数据质量管理
1. 运维数据质量管理释义
数据是数字化运营与数字化业务的核心源材料,要让数据有效产生业务价值和实现业务目标,需要有高质量的数据。高质量数据对管理决策,业务支撑都有极其重要的作用,为运维数据挖掘、预测、数据分析算法的合理使用、多维查询、即席分析、数据可视化等工作做好支撑,让数据质量不再是空中楼阁。数据质量不高表现为数据以多种格式,杂乱无序的存在于内外部的各个业务应用系统中,无统一数据源,数据分析可用的准确数据无法识别,展示信息不准,很难有效支持领导决策。遗憾的是,很多项目在初期没有考虑数据质量的治理,很多数据质量问题在项目实施后期才发现,数据质量问题直接导致了数据类项目失败。数据质量问题除了项目平台设计缺失以外,还反映出组织架构与流程设计的问题,组织需要建立有效支撑数据质量管理架构、基于数据闭环的运营流程,以支撑数据质量管理。我们将运维数据质量管理定义为:围绕运维数据生命周期,从组织、流程、平台三个维度建立的识别、度量、监测、运营、改进的数据质量管理。
2. 运维数据质量面临的挑战
数据质量问题最直接的影响是数据分析场景不可用,一方面会导致数据分析处理逻辑失效或不可用,数据无法共享带来数据孤岛,运维工具间无法互联互通;另一方面会导致数据洞察感知有误。而错误的数据洞察感知,会影响数据决策,导致决策失误。另外,基于数据驱动的运营模式是对现有经验驱动运营模式的转型,为了推动转型的顺利落地,需要让数据驱动价值真正赋能员工,而数据质量问题将导致员工对运维数据分析的可靠性、实用性等产生信任危机,阻碍运维组织向数据驱动转型。
提升数据质量是一个综合性的治理工作,现阶段面临如下挑战:
(1)数据源众多,结构不标准。运维数据来自于多种监控工具、平台软件、应用系统、运维平台等系统或工具,由于标准化不统一,大量不同的数据源之间存在着冲突、不一致或相互矛盾的现象;
(2)研发涉及的数据标准不够。在当前系统更新升级加快和应用技术更新换代频繁的背景下,数据源的软硬件供应商或企业内部自研团队,由于发展迅速,市场庞大,厂商众多,直接产生的数据或者产品产生的数据标准不完善,或研发管理标准化或数据层面的标准化不够,数据质量要求被忽略,缺乏全面的校验流程,使得数据质量问题长期处理救火状况;
(3)海量、高速的数据带来的技术管理难度。运维规模大、非结构化、高速产生,对数据获取、存储、传输和计算等过程给质量管理带来技术挑战,采用传统人工错误检测与修复或分区脚本匹配处理的方法,无法解决当前数据质量的管理问题;
(4)缺乏数据质量管理的专业人才。数据质量管理是一个长期且持续优化的过程,需要建立专项的运维数据质量管理的岗位或团队,从制度、流程、技术多个维度制定数据质量管理机制,能够持续有效的进行数据审核纠错,但当前运维组织普遍缺少这种岗位;
(5)数据质量管理投入不够。数据质量成本比较高,短期见效不明显。成本上,数据管理涉及到运维数据标准的制定、规范的落地、生命周期的管理等多个环节。见效上,数据质量产生的效益需要一个积累过程。
另外,还有其他一些因素也导致运维数据质量问题,比如因为新的基础设施或平台升级、运维操作不规范、应急数据维护方案不完善、数据质量标准化缺失或执行不力等也是当前运维数据质量急需解决的问题。
二、运维数据质量管理分析指标
为形成有效运维数据资产,要明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告。而影响数据质量的因素很多,要推进运维数据质量持续提升,要建立分析运维数据质量的指标。在大数据领域,数据质量分析指标的内容主要包括:完整性、一致性、准确性、唯一性、关联性、及时性。其中,完整性主要解决所需数据是否都同时存在,一致性主要解决同样的数据在不同系统是否一致,准确性主要解决数据是否反映客观事实,唯一性主要解决数据有没有重复与冗余,关联性主要解决数据源之间的数据存在关联关系,及时性主要解决数据是否可以在线获得。结合运维数据的特点,影响数据的“完整性、一致性、准确性、唯一性、关联性、及时性”分析指标的原因主要有:
1. 数据完整性
数据缺失是运维数据完整性的最主要表现,可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失,或在数据流动过程中丢失了部分数据。数据缺失主要是由于数据模型设计不完整导致,比如唯一性约束不完整,数据属性空值,功能设计缺陷导致数据漏记录,数据维护或迁移方案不完善导致部分表数据漏修改。数据完整性要求运维人员更加靠近业务,推动运维前移到测试、研发设计阶段。
2. 数据一致性
数据一致性主要体现在数据流动中,多个副本数据存在数据不一致、数据内容冲突的问题。数据不一致直接原因是同一份数据在不同信息系统中的数据模型不一致导致,比如数据结构不同、约束条件不对、数据编码不一致、命名与定义不一致等。而造成不同系统模型不一致性的根因,一方面应该检查是否制定并遵循了统一的运维数据规范。当然,由于不同系统对于数据应用不同,这里的一致性并不要求数据绝对相同,而是要求数据收集、处理的方法和标准的一致。在运维平台建设中,像CMDB、身份账户、组织架构等信息的数据一致性尤其重要,因为这类数据是工具间互联互通的纽带。
3. 数据准确性
准确性是指数据信息是否存在异常或错误。生产环境是一个极为严肃的工作环境,运维数据可能用在效率与成本等运营分析上,也可能应用在生产故障应急这样争分夺秒的环节中,不准确的数据将导致决策失误,带来重大安全隐患或延误战机。准确性的评价指标包括:缺失值占比、错误值占比、异常值占比、抽样偏差、数据噪声等。以应急管理场景为例,如果监控告警数据长期不准确,一方面会导致基于监控响应不及时,且过多的误告会导致员工不信任监控;另一方面错误的告警数据对于监控告警基线会产生错误的引导,影响基线的正确性。
4. 数据唯一性
唯一性用于识别和度量重复数据、冗余数据。重复数据会导致权益交易、运营计算、流程追溯、账务核对等多方面的问题,比如在进行交易系统运营流水异常感知分析时,通常采用比不同的方法,对比上一工作日某个时段的交易的交易数量,如果在采集数据时因为重复采集的原因导致数据多了一倍,那在分析感知时将产生异常感知误报。
5. 数据关联性
数据关联性包括数据结构层面的关联与数据对象层面的关联。前者主要指在数据模型中函数关系、相关系数、主外键关系、索引关系等。数据对象层面的关联主要指运维对象之间的关系链路,比如从基础设施、平台软件、应用系统、业务功能之间部署的纵向关系,上下游服务之间调用链路的横向关系。因为架构越来越复杂,以可观测为代表的解决方案越来越强调数据关联关系。
6. 数据及时性
数据实时场景多是运维数据分析的特点。及时性是指运维工程师与运维平台能够在线获得数据,所以当前运维数据平台的解决方案越来越多的重视实时流式处理技术,并提供在线的数据同步和消费的能力。
三、运维数据质量管理方法
1. 构建三位一体的运维数据质量管理
图:三位一体的运维数据治理方法
全面提升运维数据“完整性、一致性、准确性、唯一性、关联性、及时性”指标是运维数据质量治理的技术目标导向,要从组织、流程、技术三个维度建立三位一体的运维数据治理方法。
2. 建立体系化的运维数据质量组织管理
随着运维数据的广泛应用,运维发现有不少数据质量问题影响了数据洞察、决策的准确性,由此开始了运维数据治理工作,但由于缺乏体系化的组织管理,在数据质量管理存在方法论不够、沟通成本高、职责不明确等问题,以下从职责、能力、文化三方面介绍质量管理的组织建设。
(1)组织职责
运维数据质量管理需要建立明确的数据质量管理职责,包括运维数据质量管理角色与运维数据质量业主角色。
(2)能力建设
运维平台的互联互通,故障发现与应急,系统性能与容量分析等对运维数据的质量要求很高,但实际应用过程中会发现数据质量问题。因此,运维组织中应用数据的团队与工具建设团队各自主导着数据质量的运营工作。
(3)文化建设
良好的运维数据质量文化表现为质量和运维目标的一致性,运维团队专注于持续改进和自我激励,并将质量观念融入员工的日常工作。员工敢于指出错误并提出改进建议,每个人都了解其工作对于整个运维数据质量体系的重要性。只有建立良好的数据质量文化,才能让流程与工具更好的落地。
3. 制定数据质量管理流程闭环
运维数据质量管理建设工作贯穿整个运维数据平台建设的全过程,是数据数据或智能运维工作的指导和规范,要构建一个完整的运维数据质量管理流程闭环。运维数据质量管理的流程闭环包括事前质量标准,事中监测,事后分析。
(1)事前质量标准
运维数据质量是一个持续推进的过程,涉及运维、研发、测试、产品等多个内部团队,以及外部供应商的标准化。要让整个数据质量管理的流程闭环顺畅的落地,需要建立完善的数据质量标准。在建立运维数据质量标准时,由于行业现有的数据质量标准偏向于理论,而不同企业的运维组织实际情况不一,运维工作流程不同,还要在组织建立细化可实施的质量标准。
(2)事中质量监测
事中的数据质量管理,是为了让运维数据质量问题由被动发现向主动发现转变,事中的质量监测是主动发现的重要手段。质量监测从管理角度可以考虑基于“完整性、一致性、准确性、唯一性、关联性、及时性”6个质量评估指标的大方向,细分更为细化的监控指标,在技术实现可以参考运维业务功能监控的思路。
(3)事后质量分析
事后分析同样需要围绕“完整性、一致性、准确性、唯一性、关联性、及时性”6个质量评估指标建议运维数据质量分析。运维数据质量运营岗需要建立持续性的事后质量分析机制。
4. 落地数据质量全生命周期的技术平台
为快速体现运维数据治理效果,建议采用“小步快跑”的方式,识别重点应用场景的数据质量问题,通过对指标数据从业务源头、责任源头、技术源头追根溯源,定位数据质量问题产生的根因,对指标数据的业务要求规范、数据责任归属、数据技术流向进行溯源,实现快速归因和及时治理。技术平台是为了数据质量组织能够有效的落实质量管理工作流程,平台的作用是赋能作用。从功能角度看,数据质量管理平台应提供从标准定义、质量监控、绩效评估、质量分析、质量报告、重大问题及时告警、流程整改发起、系统管理等运维数据质量管理全过程的功能。
在实现上,运维组织应该成立相关平台建设项目组,梳理组织目前对运维数据质量管理的需求,并根据需求制定或选型技术平台。通常来说,平台还要以数据标准作为数据检核依据,将数据采集、数据监测、质量分析、问题跟进的流程进行整合,形成数据质量全生命周期管理。
在技术平台构成方面,建议将质量管理平台能力与现有的运维平台体系结合起来,根据投入与资源情况,选择采用分而治之或集中治理两个思路。分而治之重点是将数据质量的管理归到具体的系统,比如CMDB系统负责配置质量治理,日志系统负责日志质量治理等;集中治理的方法是建立统一的数据平台或数据管理平台,由平台提供统一的数据质量管理。
小结
在企业运维数据治理过程中,数据质量管理已成为企业持续、例行的工作,企业数据质量管理水平直接影响数据应用的效果和数字化转型的成效。本文中数据质量管理由三个部分构成,包括数据质量管理组织、数据质量管理流程、数据质量管理技术平台。全面提升数据质量,使数据质量管理“系统化”、“持续化”、“常态化”。
中翰软件:专注数据治理17年(http://www.jobhand.cn)
免责声明:本网站所发布的文章为本网站原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、连接等所包含但不限于软件、资料等,如有侵权,请直接致电联系,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。