数据空间
您当前的位置: 首页 /数据知识

告别"多乱差“,数据治理究竟治了些什么

发布时间:[2020-09-04] 来源:HIT思想荟 点击量:

       我们在医疗大数据的开发利用过程中,经常会听到有关数据治理的描述。

      关于“数据治理”的说法很多,从根本来讲,其核心是以数据资产为中心,维护和提升数据资产的价值。
      目前,医院信息化正从以建设信息系统和业务应用为主,转变为以数据资源利用为焦点。在大数据时代的背景下,基于数据的新型应用不断涌现,数据治理已然成为提高公立医院资产管理水平的重要手段。
      本文全程从医疗信息化领域的视角,探讨“数据治理”这一概念。
      01什么是数据治理
      引用《DAMA 数据管理知识体系指南》一书给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合(规划、监控和执行)。数据治理的职能是指导其他数据管理职能如何执行。
      数据从应用诞生的那一天开始就存在,但是,它与应用的发展是不同步的。起初,人们并不重视数据,数据也就没有被存储/利用。但随着应用的不断演进,对数据准确性的要求也就越来越高。而数据治理的存在,就是为了确保数据的准确性、适度分析。有效的数据治理计划,会通过改进决策/缩减成本/降低风险等方式,将价值回馈到业务层面。所有为了提高数据质量而展开的技术/业务/管理活动,都属于数据治理的范畴。
      02随处可见的数据问题
      为什么我们需要数据治理?答案跟医疗数据现状有着密切的关系。
      国内大大小小的医院,每家都有几十到几百种系统,每个系统都有成百上千张表。这些表的结构非常乱,比如患者的病历信息,零乱到难以搜索筛查。还有就是,PACS里面的影像本身没有做任何的参数调整,所以我们说影像本身的数据是有偏差的。医疗数据本身价值巨大,但是由于不够规范、没有标准,根本无法发挥它的价值,导致了数据很难应用。很多医院将希望寄托于各式各样的信息系统,希望它们能将信息整合在一起,但是结果并不如意。可以说,忽视数据治理给信息化建设带来了不少问题(数据不统一/数据质量难以提升/数据模型梳理难以完成等基础性数据问题)。当数据被集中呈现出来时,人们有些失望地发现,数据杂质很多,错误很多,所谓的“信息标准缺失”,“信息系统孤岛”就是由此而来。
      目前医疗数据的现状呈现出了以下几个问题:
      ● 数据不可知
      医院虽然意识到了大数据的重要性,但并不清楚有没有能解决所面临的业务问题的关键数据,以及到哪里去寻找这些数据。
      ● 数据不可控
      数据不可控是从传统数据平台开始就一直存在的问题,在大数据时代表现得更为明显。没有统一的数据标准,导致数据难以集成和统一;没有质量控制,导致数据质量参差不齐,难以被利用。
      ● 数据不可取
      医院即使知道业务所需要的是哪些数据,也不能便捷、自助地拿到数据。况且获取数据需要很长的开发过程,如此漫长的需求响应时间是难以满足业务需求的。
      ● 数据不可联
      医院信息化建设初期,由于缺乏整体规划,系统建设大多都是以业务部门驱动的单体架构系统,数据分散在这些架构不统一/开发语言不一致/数据库多样化的系统中,导致内部形成了一个个的“信息孤岛”。这些“孤岛”之间缺乏有效的连接通道,数据不能互联互通,交换和共享困难,不能对数据进行自助的探索和挖掘,数据的深层价值难以体现。我们希望通过整合医疗数据,规范医疗数据,形成医疗数据的通用语言,让它更方便的检索和分析。但这些对于医疗数据应用的美好设想,都是建立在本身拥有优质数据的前提下,倘若不做数据治理和数据共享,是很难实现的。
      03数据治理如何实施?
      医疗机构本身就是依托数据开展业务的单位,如果把医院的数据资源利用比作一架飞机,那么数据治理就是飞机的双翼。
      目前,医疗数据已从一种资源上升到资产。在保证资产安全的前提下,如何通过一系列的开发、管理把资产价值发挥出来,是非常重要的一项课题。医院数据治理被定义为:医院对其数据资产的管理和控制,支撑并保障数据被安全、高效地交换与使用,下图展示了医院数据治理体系。 
 1.jpg
(医疗数据的现状,请横屏观看。)
      搭建数据治理体系时,需要注意以下四个方面:
      一,组织与人员机构管理
      医院需要成立专门的数据管理部门,完成流程和规范的制定、数据质量保证和质量控制、流程审批等工作。目前,诸多医院已经成立了专门的大数据部门,也有医院将这项工作放在信息科或病案管理室。
      二,规范管理
      包括流程管理规范/流程支撑规范/信息规范/数据规范。
      ● 流程管理规范:
      用来规定何人在何种应用场景下,通过何人的审批可以操作何种类型的数据。这样做的好处有两点,首先,规范了人员/角色的配置与管理,确定数据标准/更新维护/数据质量跟踪等由谁完成。其次,规范了各种审批流程。
      ● 流程支撑规范:
      依据审批流程,临床科室可以作为数据使用方提交数据使用要求,大数据管理部门作为数据管理方进行审批。但是,审批过程缺乏详细的附加规范,比如不同角色的人员如何协作完成工作/何种职责的科室在何种情形下可以导出数据等等,这些都需要通过制定流程支撑规范来实现。除此之外,特定的流程需要特定的流程支撑规范,比如,科研流程不是简单的数据导出,通常需要多次的数据字段细化、数据清洗和融合,面向特定任务建立流程支撑规范,可以确保信息科/数据管理部门/临床医生之间的有效协同。
      ● 信息规范:
      包含隐私、数据权限管控规范/质量评估规范。
      ● 数据规范:
      包括不同业务系统,如电子病历数据规范、医院信息系统数据规范。对于数据整合过程和整合后的系统来说,需要主数据/元数据规范等相关的数据质量规范。
      以上规范的制定有助于完成以下目标:数据有明确的定义;数据有明确的责任方;数据有清晰的存储方式与合理的时间期限;数据加工方法明晰;数据访问方式与控制明确;数据内容符合质量要求。
      三,平台,工具,关键技术
      数据治理需要有相应的平台与工具支持,数据清洗过程需要抽取—转换—加载(ETL技术)、文本结构化工具等。大数据管理需要支持多种存储机制,管理平台需要包含元数据管理/数据权限管理/审批流程管理/数据质量评估/数据质量监控等工具。
      四,元数据管理
      元数据(Meta Data)是什么玩意呢?
      百科上给出的定义:元数据就是是描述数据的数据。这么说很抽象,缺乏相应技术背景的同学,可能当场就懵了。这种情况发生并不奇怪,其实是一个关于知识的怪圈:我们知晓某件事情,向不了解的人描述时却很难讲清楚。
      我们不妨借用一个比喻来理解元数据:对于一个人来说,户口本就是他的信息登记册:有姓名,年龄,性别、身份证号码,住址等等,除了这些基本的描述信息之外,还有血缘关系等等。所有信息加起来,构成对这个人的全面描述。这些信息,我们都可以称之为这个人的元数据。同理,如果我们要描述清楚一个实际的数据,以某张表为例,我们需要知道表名、存储的物理位置、主键、索引、这张表与其他表之间的关系等等。这些信息加起来,就是这张表的元数据。这么一类比,我们对元数据的概念就清楚很多了:元数据就相当于数据的户口本。
      目前医院信息系统中存在数据模式描述文档不全/数据关联不清晰/系统值域标准不统一等问题,这对数据的集成造成了极大的困扰。因此,需要通过元数据管理获取业务系统中数据的含义,辅助数据理解,增加分析敏捷性。有了元数据管理,就可以提高数据的可访问性/一致性/可用性,并且为多种来源数据的整合搭建桥梁。
      元数据管理是数据治理的核心和基础。
      当数据以真实面目呈现在我们面前,我们要做的不是抱怨和质疑,而是要将这种质疑,转变为对结果产生的溯源。
      面对当前信息化沉淀下的“数据果实”,我们要反思,在现有的信息化建设中有多少顶层设计,当初关注点只是聚焦在了建设上,而忽视了应用和治理。思考之后,我们需要落实到行动。数据治理不仅仅是治理数据生成的工具,还要治理数据生产的业务流程,这种治理能给我们带来的惊喜,除了准确好用的数据以外,还有精细化协作场景等等。正如那句老话,建设固然重要,但应用才是目标。信息化产品就好比农业收割机,数据则是粮食。收割机只是农民耕种的工具之一,想要获得丰收,最重要的不是工具,而是精心耕耘庄稼。
 

 


发表评论 共有条评论
用户名: 密码:
匿名发表