- 谈谈什么是数据质量管理[2022-10-09]
- 正确认知数据治理过程中模[2022-10-08]
- 数据湖与湖仓一体架构实践[2022-09-30]
- 数据治理:数据质量的度量维[2022-09-29]
- 数据目录是什么?为何需要它?[2022-09-28]
- 数据治理:需要一个“村庄”![2022-09-22]
- 数据治理和数据安全治理有[2022-09-21]
- 数据中台到底是什么?[2022-09-16]
- 首席数据官:数据管理的7大定[2022-09-14]
- 关于ETL与数仓建模[2022-09-13]
谈谈什么是数据质量管理
01 什么是数据质量管理
数据质量管理是一组旨在维护高质量信息的实践。数据质量管理从数据采集和高级数据流程的实施一直到数据的有效分发。它还需要对信息进行管理监督。有效的数据质量管理被认为对于任何一致的数据分析都是必不可少的,因为数据的质量对于从信息中获得可操作且更重要的准确见解至关重要。
您可以使用许多策略来提高数据质量。数据质量管理流程旨在成为数据开发的“瑞士军刀”,以应对无论何时何地出现的数字时代数据的挑战。在本文中,我们将详细介绍数据质量管理所涉及的一切:为什么它是必要的、如何衡量数据质量、良好质量管理的支柱以及一些数据质量控制技术。
为什么需要数据质量管理?
虽然数字时代成功地推动了广泛的创新,但它也助长了所谓的数字时代的“数据危机”——低质量数据。
02 数据质量的定义是什么
数据质量是指对数据的评估,相对于其目的和服务于该目的的能力。数据质量由本文后面将详细介绍的不同因素定义,例如准确性、完整性、一致性或及时性。这种质量对于满足组织在运营、规划和决策方面的需求是必要的。
如今,公司的大部分运营和战略决策都严重依赖数据,因此质量的重要性更高。事实上,低质量数据是先进数据和技术计划失败的主要原因,每年给美国企业带来的损失高达970万美元(不包括世界上所有其他国家的企业)。更一般地说,低质量的数据会影响生产力、底线和整体投资回报率。
从客户关系管理到供应链管理,再到企业资源规划,有效的数据质量管理的好处可以对组织的绩效产生连锁反应。有了可用的质量数据,组织可以形成数据仓库,以检查趋势和制定面向未来的战略。在整个行业范围内,数据质量的积极投资回报率是众所周知的。根据埃森哲的大数据调查,92%使用大数据进行管理的高管对结果感到满意,89%的高管认为数据“非常”或“极其”重要,因为它将“像互联网一样彻底改变运营模式”。
大企业的领导者清楚地了解优质数据的重要性。
03 数据质量管理的5个支柱
既然了解了高质量数据的重要性并希望采取行动来巩固数据基础,那么让我们来看看数据质量管理背后的技术以及支持它的5个支柱。
1)人
技术的效率取决于实施它的个人。我们可能在技术先进的商业社会中运作,但人类监督和流程实施尚未过时。因此,有几个数据质量管理角色需要填补,包括:
数据质量管理项目经理:项目经理的角色应由一名高层领导担任,该领导接受对商业智能计划的一般监督责任。他还应监督涉及数据范围、项目预算和计划实施的日常活动的管理。项目经理应该领导数据质量和投资回报的愿景。
组织变革经理:他通过提供对高级数据技术解决方案的清晰和洞察力来协助组织。由于使用仪表板软件通常会突出质量问题,因此变更经理在数据质量的可视化中起着重要作用。
业务/数据分析师:此人从组织的角度定义质量需求。然后将这些需求量化为用于获取和交付的数据模型。这个人或一组人确保将数据质量背后的理论传达给开发团队。
2)数据分析
数据分析是数据质量管理生命周期中的一个基本过程。它涉及:
l 详细审查数据
l 将数据与元数据进行比较和对比
l 运行统计模型
l 报告数据质量
此过程的目的是深入了解现有数据,并将其与质量目标进行比较。帮助企业在数据质量管理流程中建立一个起点,并为如何提高其信息质量设定标准。完整和准确数据的数据质量指标对于这一步至关重要。准确的数据是寻找不成比例的数字,完整的数据是定义数据体并确保所有数据点都是完整的。
3)定义数据质量
数据质量管理的第三个支柱是质量本身。应根据业务目标和要求创建和定义“质量规则”。这些是数据必须遵守的业务/技术规则才能被认为是可行的。
业务需求可能会在这一支柱中占据首位,因为关键数据元素应取决于业务。质量规则的制定对于任何数据质量管理流程的成功都至关重要,因为这些规则将检测并防止受损数据感染整个数据集的健康状况。
就像抗体检测和纠正我们体内的病毒一样,数据质量规则将纠正有价值数据之间的不一致。当与BI工具结合使用时,这些规则可以成为预测趋势和报告分析的关键。
4)数据报告
数据质量管理报告是删除和记录所有受损数据的过程。这应该被设计为遵循数据规则执行的自然过程。一旦识别和捕获异常,就应该将它们汇总,以便识别质量模式。
应根据特定特征(例如,按规则、按日期、按来源等)对捕获的数据点进行建模和定义。统计完这些数据后,可以将其连接到在线报告软件,以报告质量状态和仪表板中存在的异常情况。如果可能,还应实施自动化和“按需”技术解决方案,以便实时显示仪表板洞察力。
报告和监控是数据质量管理投资回报率的关键,因为它们可以实时查看任何时候的数据状态。通过识别数据异常的位置,数据专家团队可以制定补救流程的策略。
5)数据修复
数据修复是确定的两步过程:
l 修复数据的最佳方法
l 实施变更的最佳方式
数据修复最重要的方面是执行“根本原因”检查,以确定数据缺陷产生的原因、位置和方式。一旦实施了这项检查,就应该开始整治计划。
依赖于先前有缺陷的数据的数据流程可能需要重新启动,尤其是当它们的功能面临风险或受到缺陷数据的影响时。这些流程可能包括报告、活动或财务文件。
这也是应该再次审查数据质量规则的地方。审查过程将有助于确定规则是否需要调整或更新,并将有助于开始数据演化过程。一旦数据被认为是高质量的,关键的业务流程和功能就应该更高效、更准确地运行,从而获得更高的投资回报率和更低的成本。
04 如何衡量数据质量
要衡量数据质量,显然需要数据质量指标。它们也是评估为提高信息质量所做的努力的关键。在各种质量管理技术中,数据质量指标必须是一流的并且定义明确。这些指标包含质量的不同方面,可以用首字母缩略词“ACCIT”来概括,代表准确性、一致性、完整性、可靠性和及时性。
虽然数据分析可能相当复杂,但所有关键的数据质量管理利益相关者都应该了解一些基本测量。数据质量指标对于为未来的分析提供最好和最坚实的基础至关重要。这些指标还将帮助跟踪质量改进工作的有效性,这当然是确保走上正确轨道所必需的。让我们回顾一下这五类指标并详细说明它们所包含的内容。
1)准确性
指实时发生的业务交易或状态变化。准确性应通过源文档(即来自业务交互)来衡量,但如果不可用,则应通过独立性质的确认技术来衡量。它将指示数据是否没有重大错误。
衡量准确性的一个典型指标是数据与错误的比率,它跟踪相对于数据集的已知错误(如缺失、不完整或冗余条目)的数量。这个比率当然应该随着时间的推移而增加,证明数据质量会变得更好。数据与错误的比率没有特定的比率,因为它在很大程度上取决于数据集的大小和性质,但当然越高越好。在下面的示例中,我们看到数据错误率刚好低于95%的准确率目标:
2)一致性
严格来说,一致性指定从不同数据集中提取的两个数据值不应相互冲突。然而,一致性并不自动意味着正确性。
一致性的一个例子是一个规则,它将验证公司每个部门的员工总数不超过该组织中的员工总数。
3)完整性
完整性将表明是否有足够的信息来得出结论。完整性可以通过确定每个数据条目是否是“完整”数据条目来衡量。所有可用的数据输入字段必须完整,并且数据记录集不应缺少任何相关信息。
例如,可以使用的一个简单质量指标是数据集中的空值数量:在库存/仓储环境中,这意味着每一行项目都引用一个产品,并且每个项目都必须有一个产品标识符。在填写该产品标识符之前,该行项目无效。然后,应该随着时间的推移监控该指标,以减少它。
4)可靠性
也称为数据验证,可靠性是指对数据进行结构测试,以确保数据符合程序。这意味着没有意外的数据错误,并且它对应于其适当的名称(例如,日期、月份和年份)。
在这里,一切都归结为数据转换错误率。要使用的指标跟踪有多少数据转换操作相对于整体失败或者以一种格式存储的数据并将其转换为另一种格式的过程未成功执行的频率。在下面的示例中,转换错误率随时间变化:
5)及时性
及时性对应于对信息可用性和可访问性的期望。换言之,它衡量的是从预期数据到数据可供使用的时间之间的时间。
评估及时性的一个指标是数据价值实现时间。这对于衡量和优化这个时间至关重要,因为它对企业的成功有很多影响。获取有价值的数据的最佳时机始终是现在,因此越早访问该信息越好。
无论选择哪种方式来提高数据质量,都将始终需要衡量努力的有效性。所有这些数据质量指标示例都可以很好地评估数据质量管理流程。评估得越多,就能改进得越好,所以控制它是关键。
中翰软件:专注数据治理17年(http://www.jobhand.cn)
免责声明:本网站所发布的文章为本网站原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、连接等所包含但不限于软件、资料等,如有侵权,请直接致电联系,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。