数据空间
您当前的位置: 首页 /数据知识

详解非结构化数据治理

发布时间:[2022-09-14] 来源:网络 点击量:

随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位。日常的业务过程中,需要处理的大量电子文档、图片、音频、视频等,都属于内容数据范畴。

例如,某银行的无人营业网点的远程业务办理中,要求用户上传身份证、签字页等扫描件,来核实用户身份。为其做后端支撑的影像管理平台,就属于典型的内容管理系统。基于该类平台,企业替代了业务处理中的纸质化传输,实现了海量非结构化内容数据的采集、加工、传递及服务的全生命周期的数据整合,大幅提升了生产效率。

 

image1 拷贝.jpg

 

内容管理系统,除了管理非结构化的内容数据(如图片、语音、视频等),还需要实现内容文件的元数据(如文件标签)的管理,才能为业务系统提供服务,如批次上传/下载、标签化、全文检索、生命周期管理、文件加工转存、断点续传等。

对内容数据进行收集、存储、管理和利用的整个过程,已经成为企业提高业务效率和提高盈利能力的有效方法。

 

一、非结构化数据概述

“非结构化数据”是什么?相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息等。

相对于结构化数据,非结构化数据具有以下特点数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。

当前行业公认:非结构化数据占数据总量的80%以上。结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,非结构化数据包含各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。

非结构化数据没有预定义的数据模型,不方便用数据库二维逻辑表来表现。

 

下面对比一下结构化数据和非结构化数据的区别:

结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

结构化数据格式形式如图下:

 

image2 拷贝.jpg

 

非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等。

 

image3 拷贝.jpg

 

二、非结构化数据管理存在的问题

1、数据种类繁杂,形式多样

由于企业日常经营管理和业务管理的需要,建立了功能各异的应用系统或信息化管理平台,而这些管理系统和平台中生成了形式多样的非结构化文档数据,用以支撑企业的各类管理工作。

除此之外,还有大量与管理相关的非结构化文档数据散存在员工个人工作电脑中。这些数据种类繁杂,有的来源于外部,有的是经过内部整理编研形成的,有的则是完全产生于内部;涵盖了不同格式、不同存储载体、不同管理阶段的非结构化文档数据。

一般来说,企业拥有形式多样的存储设备,包括个人工作电脑以及信息化管理平台中管理的设备,且归属于不同的专业领域,业务活动中产生的非结构化文档数据除了常见的与办公活动相关的非结构化文档数据外,还包括了如照片、视频、设计图纸等多种形式。目前,这些不同种类的非结构化文档数据基本处于分散状态,很难进行有效的关联和整合。

 

2、信息孤岛造成数据割裂现象严重

由于信息系统建设具有阶段性特征,已有的信息系统建设之初仅以单个的业务需求为目标,彼此孤立,存在着比较严重的孤岛现象,系统之间缺少横向的数据接口,且数据标准不统一。即便是归档后进入档案系统之中的文档数据也难以实现有效的管理与集成。

例如,企业业务活动中存在着很多简称、全称以及英文名称并行使用的情况,很多数据标签对应同一个事物、同一个意思却使用不同的标签值。随着企业对数据资产价值需求的日益提升,这种现象的弊端亦凸显,打通企业非结构化文档数据的“任督二脉”,实现其资产价值势在必行。

 

3、存在过多的“账外”非结构化文档数据,缺少统一管控

由于企业的归档制度不够完善,集团制订的归档范围未将一些应归档但无法通过系统流转的文档纳入其中,部门相当一部分非结构化文档数据仍保存在个人电脑之中,没有统一的管理和控制,难以进行检索和共享利用,导致企业文档数据资产存在着流失的风险。

 

4、非结构化文档数据管理功能不全

如不支持有版本的非结构化文档数据管理,使用口径不统一,相同文件分散在不同的业务系统中,无版本控制导致无法确定系统中版本是否为最新。再如,业务系统缺少归档功能和接口,导致部门无法及时提交应归档保存的非结构化文档数据,导致非结构化文档数据资产容易丢失。同时,许多非结构化文档数据往往以“附件”的形式存在于系统中,难以检索与利用。

企业一些信息系统(如OA系统、ERP系统等)中文档多以表单(如办文单)的形式进行流转,需要办理的文档通常作为表单的附件,其中既有word或pdf等格式的文本文档,也有多种格式的图片、音视频文件等。这些非结构化文档往往只能借助其所依附的表单信息或者简单的文件标题等元数据加以检索和利用,检全率低,开发利用不足,难以开展深度的数据挖掘与分析。

 

5、相关制度体系不健全、管理缺位

企业现有的文档管理制度并不是建立在彻底的数据清理基础之上,因此,对于企业中生成哪些非结构化文档,哪些需要归档,如何进行归档?如何进行管理和利用等问题,现有制度中均缺少系统、细致、可操作的规定和描述。

而且,非结构化文档数据缺少必要的分类及元数据项。尤其是文档生命周期流程,即从文档生成、流转、办结到归档、保存、利用的全过程,并没有非常清晰和规范的管理流程和要求。

同时,企业业务活动往往涉及多个参与方,既有企业内部的部门,也有外单位,协同管理与归口管理的矛盾突出。这就对企业的非结构化文档数据管理提出了更高的要求,尤其是非结构化文档数据的准确性、及时性、一致性、安全性等方面。

此外,企业非结构化文档数据类型包括内部发文、外部发文、收文、签报、合同、业务文件附件及归档之后的档案。除了归档之后的档案数据是由数字档案管理系统进行集中统一管理之外,归档之前的非结构化文档数据往往处于分散管理的状态,存在着失存、失真、失控和失用等诸多问题,直接影响了后端档案数据的质量,影响了文档数据资产价值的发挥。

针对上述问题,要想真正实现企业文档数据资产的科学管理,非结构化文档数据管理势在必行。

 

三、非结构化数据治理体系规划

由于非结构化文档数据数量大、范围广、数据状态繁杂,涉及部门、人员和系统众多,正所谓牵一发而动全身。因此,要顺利开展非结构化文档数据的治理,必须充分做好前期的准备工作和规划。

“摸清家底”—现状调查和现状评估的基础上,结合《信息技术服务 治理 第5部分:数据治理规范》提出的数据治理框架,从顶层设计、数据治理环境、数据治理和数据治理过程四大部分开展非结构化文档数据的管理。

 

image4 拷贝.jpg

 

1、顶层设计

企业的发展战略、管理模式和关键业务活动对于企业信息化及其数据治理的方向和目标起着决定性的导向作用,同时,企业各级部门及人员对于非结构化文档数据管理的理解与期望也将影响数据治理方案的设计。

 

image5 拷贝.jpg


因此,首先可以通过对企业关键业务活动的流程进行调查与分析,借助成熟度矩阵来评估企业非结构化文档数据在不同业务活动中的现状水平,并根据相关制度规范或行业标杆进行对标,找出差异点,作为项目开展的现实基础。

然后,在上述活动的基础上,制定企业非结构化文档数据项目的实施规划,包括定位、阶段、原则和目标,作为项目开展的基础与依据。

 

2、数据治理环境

任何管理活动的开展都离不开所处的环境,后者是前者赖以生存的生态系统。国内外宏观环境、行业环境和企业内部环境构成了环境要素的三个层面。

在这三个层面中需要纵向考虑政策、制度标准、趋势、文化、传统等要素对于项目的影响作用,要遵循法律法规、行业监管、内部管控,满足数据风险控制、数据安全和隐私的要求。

识别并评估市场发展、数据清理、竞争地位和技术变革等变化,规划并满足数据治理对各类资源的需求,包括人员、经费和基础设施。

尤其要关注企业文化、体制传统对管理活动实施的潜在影响,区别有利因素和阻碍因素。

 

3、数据治理框架

在前述两个步骤的基础上,围绕数据标准、数据质量、数据安全、元数据管理、内容管理和文档全生命周期管理等方面,搭建企业非结构化文档数据管理系统平台,在企业内部打通各业务系统之间的壁垒,在统一的平台之上规范非结构化文档数据的管理,同时融合元数据管理和内容管理。

 

文档类型关联着文档的元数据,不同的文档类型具备不同的文档元数据集合,也对应着不同的管理策略和机制。因此,需要统一制定符合管理和利用要求的非结构化文档数据元数据标准体系。

内容管理理念则作用于数据管理平台底层,以数据内容为中心统一存储、管理企业内部已建、在建、未系统化管理的非结构化文档数据,为上层业务管理、知识管理、智能搜索等业务应用的建设提供支撑。

 

4、数据治理过程

按照项目管理流程的一般要求,针对企业非结构化文档数据管理具体目标和内容,进行统筹规划、构建运行、监控评价、改进优化四个阶段的流程控制。

在此过程中,由于项目涉及企业各个层级、各个部门的众多人员、系统及工作流程,为了保证项目的顺利实施,需要在项目开展的同时进行变革管理(Change Management),通过调研、宣贯和培训等手段加强企业员工对项目的认知和接受程度。

 

四、非结构化数据治理解决方案

非结构化数据管理在企业实践中主要体现为 ECM 企业内容管理,其解决方案是通过企业内容管理系统来得到各项非结构化数据管理 工作的具体落地实施。

内容是指各类文档中包含的数据,其中以文本、图像、音频、视频等非结构化数据为主。ECM 企业内容管理是指以一种战略或方法, 来帮助企业获取、管理、存储、保护、利用和洞察企业组织流程相关的非结构化数据,如下图所示。

 

image7 拷贝.jpg

 

ECM 企业内容管理是一种专注于非结构化数据领域的软件类型,其涵盖了企业网盘、文档管理、知识管理、文件安全交换、工程协同设计、文件安全外发、档案管理、影像文件管理、电子文档安全管理、文档云、ISO 质量文件体系管理、GMP 质量文件体系管理、非结构化数据管理平台、工程内容管理等应用软件,以及基于 AI 智能和 Graph 知识图谱技术的智能推荐、智能搜索、智能定密、智能安全分析等内容智能应用。

ECM 企业内容管理系统可以帮助企业内容管理战略落地,通过内容获取、管理、存储、保护、利用等方式挖掘和释放内容价值,最终促进企业数字化转型,提升企业运营效率,并获得企业商业洞察能力与长远竞争优势。

Gartner 于 2017 年修正了企业内容管理的定义:企业内容管理是一种服务,包括内容协作平台、内容服务平台和内容业务平台。具体表现为具有通用 API 接口和多储存库的平台型软件,服务于多分支组织机构和各种应用场景。

 

image8 拷贝.jpg

 

《预测 2019:内容服务的技术融合》中提出:越来越多的内容创新数字业务促进了对元数据解决方案需求的增长,使得通过使用人工智能来实现以前只能通过人类专业知识才能实现的自动化解决方案变得更加具有可行性。

进一步分析 Gartner 内容服务框架,其主要包括内容管理平台、内容服务应用和内容组件。其中内容管理平台是底层内容统一存储和统一管理的基础平台,提供各种 API 接口和 Connector 连接器等集成支撑;内容服务应用强调以内容为中心的业务应用;内容组件是一种类似转档、预览、编辑等细颗粒的内容服务组件,其能力可输送于内容服务平台和内容服务应用。

企业内容管理本质是为企业业务和数字化转型提供内容服务支撑,并具有内容服务的快速响应能力。基于内容服务平台 CSP 的内容服务应用 CSA 分为体系化 CSA 和场景化 CSA。其中体系化 CSA 覆盖垂直业务领域的内容服务,场景化 CSA 注重与第三方业务系统的集成和整合。

 

image9 拷贝.jpg

 

完整的内容服务框架如上图所示,其底座是内容服务平台,中层是基于低代码开发技术的内容业务平台,上层构建起内容协作、内容安全、内容管理、内容治理、内容合规、内容业务、内容智能等各种内容应用场景。

 

五、总结

数据就像石油,需要经过提纯加工才能使用,才能实现其资产价值。非结构化文档数据是“数据石油”的重要来源,企业需要遵循分级分类的管理思想,通过平台化、智能化和安全化的管理方法,才能构建出完整的非结构化文档数据管理体系,围绕能给业务带来价值的非结构化文档数据资产进行建设,从而推动非结构化文档数据向数据资产的转化。

 

中翰软件:专注数据治理17年(http://www.jobhand.cn)

 

 

免责声明:本网站所发布的文章为本网站原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、连接等所包含但不限于软件、资料等,如有侵权,请直接致电联系,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。

 

 


发表评论 共有条评论
用户名: 密码:
匿名发表