数据空间
您当前的位置: 首页 /新闻资讯

浅谈数据管理与行业知识图谱关系

发布时间:[2021-04-16] 来源:御数坊 点击量:

       自DAMA国际2009年在全球范围内首次提出数据管理知识体系DAMA-DMBOK以来,这一数据管理理论已成为指导国内银行、电信、电力等各行业开展数据管理实践探索的重要理论基础。

      数据管理知识体系DAMA-DMBOK这一基础理论,在结合中国国内数据管理最佳实践经验的基础上,已悄然落地生根,形成了适合中国实际情况的数据管理理论、并上升为国家标准。国家标准委员会发布了《数据管理能力成熟度评估模型(GB/ T36073 — 2018)》、《信息技术服务 治理 第5部分:数据治理规范(GB/T 34960.5-2018)》两项数据管理国家标准。
      其中前者适用于组织对自身数据管理能力成熟度水平进行评估,发现组织数据管理过程中存在的问题,明确自身所处的发展阶段以及未来发展方向。
      后者适用于指导组织建立数据治理体系,提出了数据治理的相关规范,并监督在数据获取、存储直至销毁的数据全生存周期的运行和完善。
      在行业落地实践方面,银保监会发布了《银行业金融机构数据治理指引》,正式取代已试行7年之久的《银行监管统计数据质量管理良好标准(试行)》,以引导银行业金融机构加强数据治理,提高数据质量,充分发挥数据价值,提升经营管理水平。
      银保监会的这一举措,充分说明金融行业已高度重视数据治理工作,并将其上升为行业监管规范对各金融机构产生了实质性约束和要求。国内各职能部门对于数据治理工作采取的各种措施,都实实在在使数据治理成为大数据时代的新风口和各方关注热点。
      与此同时近年来,人工智能已受到各行各业的普遍关注,“AI”已然成为公众谈论的、炙手可热的技术词汇,不只是BAT等IT巨头在战略投资、布局人工智能,像金融、汽车、零售、娱乐、制造等众多行业巨头都在积极拥抱人工智能技术。然而,人工智能要在行业中得到应用的先决条件,是首先要对本行业建立起基础性的认知,只有充分理解了行业本质、并积累足够多的业务场景,才能真正实现智能化,这也引出了本文所关注的另一个话题——行业知识图谱,即只有建立起行业知识图谱,才能真正给出行业的“AI”方案。
      那么问题来了,在某个大型企业内部,如果由于行业监管要求、或者企业战略驱动,需要分别同时开展数据治理、并启动构建本企业的行业知识图谱两块热点工作,那么企业又该如何梳理或规划这两块工作之间的关联关系或依赖关系呢?这也是本文所需要重点阐述的内容。
      数据治理
      数据治理是对数据资产的管理行使权力和控制的活动集合(规划、监控和执行),主要包括组织职责、制度规范、工作流程等内容。这是数据管理知识体系DAMA-DMBOK给出的定义,已在业界得到广泛认同。需要指出的是数据治理与数据管理之间的区别和联系,数据管理是规划、控制和提供数据和信息资产的一组业务职能,主要包括数据架构、数据标准、数据质量、数据安全等职能领域。两者的区别在于前者可以理解为“狭义”数据治理,后者可以理解为“广义”数据治理,数据管理工作内容包括“狭义”数据治理职能,但数据治理职能可以指导数据管理其它职能如何去执行。
      知识图谱
      知识图谱是指通过不同知识的关联性,所形成的一个网状知识结构,对机器来说就是图谱,形成知识图谱的过程本质是让机器形成认知能力,理解世界。
      知识图谱按照内容覆盖面可以分为(开放域)通用知识图谱和(垂直)行业知识图谱两类。通用知识图谱的特点是面向通用领域、以常识性知识为主、强调知识的广度、准确性要求不高、面向的用户群体是普通用户,主要应用于面向互联网的搜索、推荐、问答等业务场景。行业知识图谱则是面向某一特定领域、基于行业数据构建、强调知识的深度、准确度要求很高、面向的用户群体通常是行业用户,通常用于辅助各种复杂的分析应用或决策支持。本文引言中提出问题,探讨如果在企业内部同时开展数据治理和知识图谱构建两项工作,因此,本文后续提到的知识图谱均默认为行业知识图谱。
      数据与知识关系分析
      要回答开展数据治理工作与构建行业知识图谱之间的关联关系,首先要理清数据治理工作开展的对象“数据”与构建行业知识图谱所依赖的“知识”之间的关系,即数据和知识两者之间是什么关系?本文将通过DIKW模型对数据和知识进行系统性阐述。
      DIKW模型是知识管理领域里一个重要模型,是一种将数据、信息、知识、智慧纳入到一种金字塔形的层次体系,每一层比下一层多赋予的一些特质。对事物的原始观察及量度获得了数据、分析数据间的关系获得了信息。在行动上使用信息产生了知识。智慧关心未来,它含有暗示及滞后影响的意味。通过DIKW模型分析,可以看到数据、信息、知识与智慧之间既有联系,又有区别。数据是记录下来的数字、文字、图像、符号等,是最原始的素材,在没有被处理之前,本身不代表任何潜在的意义;
      信息是具有时效性的,有一定含义的, 有逻辑的、经过加工处理的、对决策有价值的数据流。当通过某种方式对数据进行组织和分析时,数据的意义才显示出来,从而演变为信息,信息可以对某些简单的问题给予解答,例如:Who?What?Where?When?
      知识是知识通过人们的参与,对信息进行行归纳、 演绎、 比较等手段进行挖掘, 使其有价值的部分沉淀下来,并于已存在的人类知识体系(或者称为经验)相结合, 这部分有价值的信息就转变成知识。因此,知识可以解决较为复杂的问题,可以回答“How?”的问题,能够积极地指导任务的执行和管理,进行决策和解决问题。知识使信息变得有用,可以在具体工作环境中,对于特定接收者能够解决“如何”开展工作的问题,从而提高工作的效率和质量。同时,知识的积累和应用,对于启迪智慧,引领未来起到了非常重要的作用。
      智慧,是人类基于已有的数据、信息、知识,通过经验、阅历、见识的累积,而形成的对事物或问题的深刻认识、远见,体现为一种卓越的判断力和思考力,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法,可以回答“Why?”的问题。
      在DIKW模型中系统性阐述了知识和数据之间的演进层次和双向演进关系,从数据到知识自下而上演进关系:从噪音中分拣出来数据,转化为信息,升级为知识,升华为智慧,这是信息的管理和分类过程,让信息从庞大无序到分类有序,各取所需。这就是一个知识管理的过程。反过来从知识到数据自上而下演进关系:随着信息生产与传播手段的极大丰富,知识生产的过程其实也是一个不断衰退的过程,从智慧传播为知识,从知识普及为信息,从信息变为记录的数据。
      关联关系分析
      DIKW模型系统性地阐述了数据、信息、知识和智慧之间的层次关系和递进关系。本文以DIKW模型递进关系为主线和参照物,将分别分析数据治理和知识图谱的主要工作内容,进而推导出两者之间的关联关系和依赖关系。
      数据治理分析
      在数据治理领域,通过总结、提炼当前主流的数据治理理论框架,本文认为数据治理工作应划分为三个层次:
      一是数据治理层,具体包括组织职责、制度流程、认责评估等活动,是针对数据管理层活动的高层权威性和控制性活动,是数据治理工作的内核;也就是通常所指的“狭义”数据治理;
      二是数据管理层,具体包括数据架构、数据标准、数据质量、数据安全、元数据管理、数据生命周期管理等管理活动,是数据治理工作的具体管理职能,通常是指的“广义”数据治理
      三是数据应用层,具体包括数据流通、数据服务、数据洞察等应用活动,是数据治理工作的价值体现。可以理解为数据治理的外延。
      通过上图数据治理与DIKW模型层级对比分析可以得知,数据治理层和数据管理层主要是针对数据、信息的管理工作,确保所获取原始素材——数据的真实性、准确性、完整性,让数据真正能够反映一个“事实”;在获取真实、准确、完整的数据基础之上通过数据生命周期管理,对数据进行开发、组织和分析,赋予  数据以业务含义,定义其格式和时间有效性范围,将数据转换为信息,与此同时,数据生命周期管理过程当中,同步开展数据标准、数据质量、元数据管理等管理活动,从而直接提高信息的质量。
      在高质量信息基础之上,基于某个角度对信息进行了筛选、流通整合、洞察分析等过程之后,形成一种有用的正确观点——知识,而这个观点(知识)能够积极地指导接收者“如何”执行和管理某项具体工作,从而提高工作的效率和质量,从而体现数据治理的工作价值。
      行业知识图谱分析
      行业知识图谱全生命周期可分为知识建模、知识获取、知识融合、知识存储、知识计算和知识应用六个部分。
      行业知识图谱与通用知识图谱在知识建模(本体构建)构建方式上略有不同,通用知识图谱首先是从原始数据中进行知识获取,然后经过知识融合处理后,再“自底向上”进行自动或半自动的本体构建;而行业知识图谱则首先由专家根据业务经验采用“自顶向下”方式进行人工建模,完成本体的初始化构建,然后再从原始数据中进行知识获取,对本体进行数据填充,然后再进行知识融合;当后续填充的数据逐步增多时,再采用自动或半自动的本体构建,进一步完善本体。
      根据上述对于知识建模(本体构建)、知识获取(本体填充)的内容描述可以得知,这两个阶段所处理的对象形态仍然只是数据和信息,由于数出多源、形态各异,存在大量的冗余、歧义甚至错误信息,尚未形成知识,只有经过实体对齐、实体消歧、共指消解等知识融合手段,才形成基础知识,以RDF三元组、时态信息、事件信息等形式存储到适当的知识库中。
      知识计算是指通过图挖掘计算、本体推理、规则推理等算法,发现基础知识中的显式或隐含知识、本体(模式)或规则,是对基础知识的进一步提炼和整合,形成复合知识或新观点。
      知识应用是根据应用需求,对基本知识或复合知识通过可视化辅助决策支持、智能问答、语义搜索等适当方式进行应用,以解决具体业务问题或实时响应客户诉求,从而体现知识的价值。
      从上述数据治理和行业知识图谱构建分析可以得知,两项工作各有侧重,存在互补关系。数据治理侧重于针对数据和信息的基础管理,通过提升信息质量,通过数据或业务应用间接发挥价值。因此,数据治理工作属于典型的陪衬“红花”的“绿叶”工作,其工作价值通常需要较长时间才能体现出来,且容易被人所忽视。而知识图谱侧重于知识应用,其目的是建立起机器对世界的认知和理解,其价值可直接自身知识应用体现出来,且容易获得较多的关注,属于典型的“红花”。因此,如果某个大型企业内部同步开展数据治理和行业知识图谱构建两项工作,一定要统筹规划两者的关系,对此本文提出以下主要结论:
      良好的数据治理是企业构建行业知识图谱的基础。主要体现在以下两个方面:
      1)在数据治理层,良好的数据治理可以确保知识图谱构建过程中能够获得稳定可靠的数据来源。
      知识图谱只从技术实现方面阐述了如何从结构化数据、半结构化数据和非结构化数据提取知识元素。但如果企业内部仍然存在一亩三分地的“领地”意识,尚未实现企业内部的数据共享、尚未建立起跨部门的数据共享机制,则知识图谱的数据源则无法覆盖企业全局数据源,特别是尚处于线下的半结构化日志文件和非结构化文本、图片和视频文件。
      此外,知识图谱还提到了通过包装器、爬虫等技术从外部行业数据源网站抽取数据,这种通过纯技术获取外部数据源的方法对于企业构建行业知识图谱是不可取的,主要原因包括:一是任何企业都不会把核心数据发布到对外公开的网站上;二是数据来源的真实性无法保证;三是数据获取的不确定性,导致付出较多的时间成本和机会成本。因此,如果企业想要获取必需的外部数据,应该与上下游企业或合作伙伴之间建立数据运营流通机制,通过数据开放、交换或交易等方式,获取所需的行业核心数据。包装器、爬虫等技术只能作为补充手段获取一些非核心数据。
      2)在数据管理层,良好的数据管理能够提高数据源头的真实性和信息的质量,为提升知识的正确率奠定基础,有助于为机器建立起正确的认知来理解世界。
      知识图谱构建主要是依赖通过算法、技术实现本体构建、知识获取(本体填充)、知识融合、知识计算和应用的全流程自动化,过程当中通过人工辅助手段进行纠偏。但这其中忽略了一个重大前提,即机器认为人们提供的数据源是真实的,数据本身是“一个事实”,以此为基础推进由数据到知识的转换。但人们提供的数据源未必就是“真实的”,算法并不能识别“伪造”数据。GIGO原则(Garbage In Garbage Out)同样也适用于知识图谱构建过程,基于低质量数据源所得出的知识和观点,使机器所获得认知的正确率很低,也难以得到接收者的认可。因此,只有通过积极主动开展数据标准、数据质量等数据管理工作,确保数据源头的真实性,提高信息的质量,从而减少构建过程中反复训练数据的工作量,达到事半功倍的效果。
      构建行业知识图谱是开展数据治理工作的有力抓手,能更好的体现数据治理的工作价值。数据治理属于典型的基础性工作,不能直接产生价值,只能通过应用间接发挥价值,很多企业在开展数据治理过程当中,一直都缺乏持续有效的抓手。在构建行业知识图谱过程中,可以将数据治理工作嵌入到行业知识图谱全生命周期各阶段的具体工作当中,既能作为持续开展数据治理工作的有力抓手,也能有效降低知识图谱构建的工作量,提升算法效率,达到事半功倍的效果,从而能更好的体现数据治理工作价值。
      总结
      行业知识图谱是一个交叉研究领域,从某种角度来说,是一个商业包装的词汇,传统企业启动知识图谱构建项目,意图给出行业的“AI”方案,意味着该企业已经在公司高层决策涉足人工智能领域,属于典型的企业战略转型驱动项目,因而该项目将受到来自企业内外各方的普遍关注和高度期待。但需要指出的是,在传统企业内部构建行业知识图谱,目前仍处于前期探索和尝试阶段,构建技术和应用算法也仍不成熟,需要企业有足够的耐心去思考合适的应用场景和需求、探索尝试行业知识图谱全生命周期各阶段的构建技术和应用算法,对于前期项目的实现预期,仍需谨慎考虑。
       本文从DIKW模型系统性地阐述了数据、信息、知识和智慧之间的层次关系和递进关系,以DIKW模型递进关系为主线和参照物,分析了数据治理和行业知识图谱构建两项工作之间的关联关系和依赖关系。即如果企业已决策涉足人工智能领域,启动知识图谱构建项目,应同步嵌入数据治理各项工作作为有效补充,以达到事半功倍的效果。

发表评论 共有条评论
用户名: 密码:
匿名发表