- 理论支撑:企业财务大数据[2022-06-16]
- 数据治理的时代演变之道[2022-06-15]
- 数据治理的经济分析[2022-06-14]
- 实施数据治理时常犯的10[2022-06-13]
- 数据质量管理办法[2022-06-10]
- 治数VS养数[2022-06-09]
- 华为是怎么做数据治理的[2022-06-09]
- 数据发现对数据治理的重[2022-06-08]
- 工业企业数据治理的八大[2022-06-07]
- 企业数据治理团队的十大[2022-06-06]
数据资产目录为数字化转型提供智能化数据管理能力
一数据资产管理面临的问题和挑战
数字化转型的核心是数据,数据推动业务创新,业务策略建立在由数据提供信息的决策之上。业务运作越来越多地以数据为导向,专业人士正在使用数据分析和洞察力来做出操作决策,而决策正在通过依赖数据进行培训的机器学习实现自动化。然而,企业和组织普遍存在数据分散、数据来源多,整合后数据不一致:不同数据源的接口众多,同一类数据采用的标准、规则都不一致,另外数据源本身存在脏数据和噪声数据等问题。人们花费了太多的时间去寻找有意义的、可信赖的数据。IDC在2017年的一项调查显示,尽管数据专业人员每周花费大部分时间来获得洞察力,但花在执行分析上的时间仍然只是搜索和准备数据所花费时间的一小部分。每周通过治理保护数据所花费的时间几乎相当于搜索数据所花费的时间。
问:您平均每周花费多少小时在以下与数据相关的活动上?
资料来源:IDC 2017年数据整合和完整性最终用户调查
二调研发现大多数组织普遍面临以下问题
组织有许多数据源,但数据使用者没有简单的方法在一个地方准确识别这些数据源。
"全业务统一"数据中心已经变成了一片数据沼泽,很难找到有意义的,可信赖的数据。
数据使用者没有适当的流程来请求他们需要的数据。
即使数据使用者可以访问数据,他们也不知道数据意味着什么或者应该如何使用数据。
数据使用者不知道他们找到的数据的来源,因此无法确认数据的可信度。
数据消费者不知道谁拥有数据,因此无法联系相应的负责人。
数据消费者不知道企业中已经存在哪些数据集,也不知道谁使用了类似的数据探索过类似的问题。
对于上述问题的解决,数据治理专家可能会想到元数据。元数据真的能够完全解决这些问题吗?答案是不能。元数据是数据的描述信息,有技术元数据、业务元数据和管理元数据等,虽然有些企业已经实现了元数据管理、数据字典和业务术语表,但是,基本上能够自动采集的只有技术元数据,业务元数据和管理元数据基本上都是手工采集的,而且由于数据增长的速度超过了数据管理人数,除了所有关于客户、产品、销售、员工、库存和供应商的数据,企业用户现在面临着更多更大的数据来源,包括社交媒体、物联网和其他类型的行为数据,如网站点击流。因此存在元数据管理人员可用性的瓶颈。由于定义不正确、信息不完整、元数据陈旧或无法找到所需信息,它需要更多的元数据来理解存储在数据仓库中的数据资产,包括数据内容、数据资产图谱、数据敏感性、用户喜好、数据质量、上下文(缺乏上下文将无法用于分析)和数据价值等业务层面的理解。此外,这些系统和应用是技术人员开发的,由于技术人员和业务人员的思维和“语言”存在差异,这使得业务用户获取数据变得更加复杂和困难。
三数据资产目录的主要功能
尽管元数据不能完全解决数据管理面临的所有问题,但是元数据可以作为构建数据资产目录的基础,相当于数据资产目录的后台,负责收集业务元数据、管理元数据和技术元数据。作为升级版的元数据,数据资产目录还将收集有关数据库的数据,以及有关流程、人员和与数据相关的平台的数据,以下列举了数据资产目录所应具备的一些基本功能:
数据集评论和评级。最有价值的元数据是个人和团队的知识和经验。通过收集用户评分、评论、技巧等,可以丰富元数据,并将组织隐性知识转化为共享的、持久的显性知识。
敏感数据标识。包括表级和字段级。
业务术语表关联。通过数据验证规则和/或纯英文定义记录业务实体,并将其映射到表和字段。
标签管理。将关键字或类别分配给目录中的对象。这些可以由目录管理员手动分配,由目录用户提交,或者通过各种自动化技术打标。
数据分类。通过扫描、分析数据,识别格式、值和嵌入名称来实现。然后可以为数据分配分类,这些分类是可搜索的。对于某些产品,分类和敏感数据检测是密切相关的。
数据来源。通过在核心产品、集成工具或目录中的数据源之间的数据处理流程中跟踪数据谱系而获得。
全文检索。允许用户按对象名称、实体名称、标签、评级或数据分类等进行全面搜索来定位特定的数据集或实体。
能够提供答案。数据使用者会对可信度、时效性、血缘关系、敏感度等方面产生疑问。有时候,他们想要找到其他知道或者曾经使用过这些数据的人来获得帮助。他们需要知道访问权限、隐私和安全约束、成本等等。虽然有些元数据管理系统可以从ETL或者ERWin等工具导入,但是在谱系链中总是存在需要填补的空白。数据资产目录应该有助于通过自动发现数据集之间缺失的血缘关系来填补这些空白。
能够查询目录中表示的数据集,并以列表、文本、或者可视化图表等格式查看结果。
能够直接在外部商务智能(BI)或大数据分析挖掘工具中打开目录数据集,以便于了解背后的逻辑和数据结构。
机器学习。支持前面提到的数据分类、打标的自动化、数据资产推荐或数据地图的测绘。
四构建数据资产目录
数据资产目录的初始构建通常会扫描大量数据以收集大量元数据。目录的数据范围可能包括任何或全部数据湖、数据仓库、数据超市、生产系统数据库和其他被确定为有价值和可共享的数据资产。手动收集元数据是一项强制执行且不可能完成的任务。数据资产目录使用算法和机器学习自动完成以下工作:
查找和扫描数据集。
提取元数据以支持数据集发现。
暴露数据冲突。
推断语义和业务术语。
给数据打标签以支持搜索。
标识隐私、安全性和敏感数据的合规性。
通过最大限度的自动化和有限的人工操作,可以从构建的数据资产目录中获得更多价值。
例如利用机器学习可以实现数据资产自动分类和打标签。下面简要介绍几种常用方法。
有监督学习技术是基于已经打上标签的样本数据上训练一个模型。然后将该模型应用于所有未打标的数据,在这些数据中,实例根据预测中的信任度进行排序。最自信的预测然后被添加到标记的例子中。这个过程不断重复,直到所有未标记的例子都被标记。虽然数据上没有假设,但有一个隐含的假设,即它自己的训练模型的预测往往是正确的,特别是对于那些高度自信的人。该方法简单有效,已成功地应用于实际工程中。
使用多个分类器可以减少分类器被错误训练的机会。使用Bagging集成学习算法在已经打上标签的样本数据上训练3个模型。然后每个模型迭代更新,其他两个模型对未标记的例子进行预测,只有具有相同预测的例子与原始标记的例子结合使用,以重新训练模型。当没有模型更改时,迭代停止。最后,使用多数投票对未标记的例子进行标记,其中至少两个模型必须彼此一致。与协同训练相比,三重训练不需要足够多的视图,这使得三重训练的应用更加广泛。
多学习算法民主协同学习使用一组不同的学习算法(在实验中,它们是朴素贝叶斯、C4.5和3-最近邻)在相同的训练数据上分别训练一组分类器。通过加权投票将三个分类器的结果相结合,产生对新例子的预测。新的标签,然后添加到训练集的分类器软管预测不同于大多数结果。这个过程重复直到没有更多的数据被添加到分类器的训练数据中。
多视图协同训练将特征集分成两个充分且多余的视图,这意味着一组特征足以学习,并且独立于另一组特征的学习。对于每个特征集,训练一个模型,然后用于教授在其他特征集上训练的模型。共同训练的模型可以通过在未标记的例子上最大化它们的协议来最小化错误。
五使用数据资产目录
数据资产目录的最终用户是那些分析数据、制作报告和数据可视化的人。数据资产目录必须支持使用数据的非技术业务用户和高度熟练的数据分析师。符合业务分析人员要求的目录将很容易满足更多技术用户的需求。数据资产目录通过使数据易于查找、便于理解、值得信任以及可访问和可用来支持分析师的需求。
总结
近年来,数据管理发生了根本性的变化,它不再是一个完全在IT部门中实施的技术规程,业务在管理数据方面扮演着日益重要的角色。我们正在迅速进入一个沟通、业务协作和人工智能成为数据管理支柱的时代。数据资产目录是将它们粘合在一起的粘合剂。从最初作为元数据管理并向数据分析师提供数据查询的一种方式,数据资产目录的功能、受欢迎程度和重要性都有所提高。现在数据资产目录仍然满足数据分析师的需要,但已经扩大了范围,它现在是数据管理、数据管控和数据治理的核心。例如,数据资产目录已经变得具有战略重要性,CDO认为数据资产目录对管理数据资产和提高分析质量和生产率也具有战略意义。首席法务官认为对敏感数据的编目尤其重要,因为《个人信息管理规范》正在迅速实施并引入新的治理要求,以加强和统一对个人的数据保护。在当今没有数据资产目录的情况下管理数据是不明智和不切实际的。