大数据治理：支撑新一代人工智能应用落地的基石

发布时间:[2021-08-16] 来源:网络点击量:

早些年中国就对2030年的人工智能产业进行了整体规划与部署。从那时起，人工智能AI就成为了炙手可热的风口，几乎所有的IT互联网企业，以及那些还在推动互联网+、数字化转型的传统企业，也试图寻求借助人工智能实现自身的转型升级。

但如同这些年来，大数据先是被神化，然后又被妖魔化的技术概念炒作路线一样，本轮AI热潮也必然会经历从过度神化走向落地的过程。在狂热之余，也有必要分析本轮AI热潮的实质：本轮火热的人工智能在算法或模型方面并无革命性的重大突破，深度学习早在上世纪八十年代就已经出现。

近年来人工智能的突然爆发，主要有两个关键因素：一是大数据，为深度学习算法提供海量的训练数据作支撑；二是高性能计算，尤其是通用计算GPU给予了神经网络和深度学习强大的计算力支持，使得以前无法完成的计算或者无法在短时间内完成的计算成为了可能。正因为有了两个关键因素作支撑，使得本轮人工智能呈现与以往不同的特征：在特定领域，学习的主体真正由人变成了机器，人工智能正式进入了2.0时代。

这也是试图寻求借助人工智能实现自身转型升级的传统企业，最为关注的焦点：即如何借助人工智能技术，通过机器自主学习从海量的文本、视频、图像等大数据中每天24小时、永不停息地探寻规则、模式、预测、趋势、关联关系等隐性知识，实现知识创新服务与决策支持，释放“智能红利”，而使公司获得更早的发展先机和更强的竞争力。因此，本文的关注重点并非研究某项具体的人工智能技术，而是探讨如何在传统企业内部建立从大数据到知识的一套工作机制或方法，即行业数据+AI元素，促成AI技术在行业知识转化过程中更好地发挥创新引领作用。

1. 从大数据到知识的转化过程

本文提出通过大数据治理工作，在企业内部建立起一套支撑大数据深化应用、AI2.0（即机器自主学习）常态化运转，涵盖大数据、组织架构、技术平台等在内的创新工作机制，将隐性知识的转化主体逐渐由人向机器转变。

企业大数据包括社交媒体数据、机器对机器数据、大体量交易数据、生物计量学数据和人工生成数据，分为文本、视频、图像、语音等承载形态。大数据到知识的转化可以分为两个阶段：

在大数据深化应用阶段，企业主要由数据科学家、数据分析师等大数据专业人员运用机器学习、探索分析、实时数据服务等大数据深化应用技术，从大数据中提取出规则、趋势、关联关系等各类知识，基于相关的应用方向结合实际需求，构建应用场景，从而产生业务价值；这个阶段的主要特征是以人为学习主体，大数据专业人员全程掌控，基于自身经验去获取所需的各类数据、选择合适的算法、技术、工具平台去发掘隐含在大数据中的隐性知识，完全离不开“人”。

在新一代人工智能应用阶段，由数据科学家、数据分析师等大数据专业人员利用各种深度学习算法，放弃对结果的可解释性、不限定问题假设、不训练样本、也不人工标记数据集，只追求学习的有效性，仅结合人类的先验常识、隐性直觉等知识为引导，基于海量大数据，整体围绕“以机器为学习主体”这一目标，建立注意力模型、记忆网络、迁移学习、强化学习、半监督/无监督学习等算法模型，实现从浅层计算到深度神经推理，“永不停息”自主驱动学习，去发掘隐含在大数据中的隐性知识，最终使机器自身具备数据收集、整理、分析的能力，并自主对算法进行调整和优化，自主将大数据转变为知识，实现高阶人工智能，更好地支撑知识创新服务与各级决策。

2.大数据治理

为了更好地支撑大数据到知识转化过程，应将传统数据治理升级到大数据治理，如同大数据是数据一样，大数据治理本质上也是数据治理，数据治理方法论同样也适用于大数据治理，但是考虑到大数据的特性，需要作出适当的调整，本文重点阐述大数据治理与传统数据治理差异性较大的内容，以及大数据治理对于深化大数据应用、支撑新一代人工智能落地的基石作用。

通过大数据治理，将推动“以人为学习主体”的大数据深化应用阶段逐步向“以机器为学习主体”的新一代人工智能应用阶段转变，推进治理的数据类型由传统的、占比不到15%的结构化数据向原生态格式、多结构、占比超过85%的非结构化数据转变；推进治理的数据范围由专注企业内部数据向行业上下游、跨行业、社会舆情等数据转变；推进数据治理工作目标由体现间接价值向直接推动价值创造转变。

2.1大数据治理组织

在现有数据治理组织架构中增加大数据治理相关的职责和角色；将数据科学家、AI算法专家等大数据专家纳入到决策层——数据治理委员会（或知识创新领导小组，名字不限于此），大数据专家从驱动数据到知识的转化视角、知识指导实践的洞察视角，辅助作出各种决策；有助于从组织高阶层面为驱动大数据转化知识争取更多资源。按大数据类型分设大数据主管[1]，负责本类型大数据的收集（不限本公司）、内部提供、外部交换及质量、安全等管理工作；数据主管向业务部门汇报，凭借其专业性，负责提升数据资产的可信度和隐私性，同时确保开展大数据深化应用、深化学习时，各项保障工作能支撑到位。

2.2大数据质量管理

大数据质量管理相比传统数据质量管理更加复杂，主要表现在数据来源复杂且多样性、组织内外数据含义存在差异性、外部数据难以有效控制质量且错误数据无法溯源等等。同时，机器学习、深度学习算法对数据质量要求极高，否则可能会导致机器无法自主学习、或产生错误知识，影响决策，造成资源浪费。大数据质量评估维度需要重新定义。目前在大数据质量的可度量性方面以麻省理工学院Richard Y.Wang等提出的数据质量度量维度为典型代表，将大数据质量维度分为四大类、19个维度。

2.3大数据架构管理

当前，各大型企业都已启动或即将完成大数据平台建设，基本上都规划了本企业的大数据架构，在此不再重复。在本处强调三点：

一是需要建立面向多源异构数据、尤其是非结构化数据的自动采集机制，数据来源可能是合作企业，也有可能是热点网站，需针对不同类型数据定制化开发不同的采集程序，如包装器、抽取程序等；

二是文本、图像、视频等非结构化数据，必须与人员、组织、产品等主数据进行关联，从而通过索引、分析等技术，挖掘非结构化数据的潜在价值；

三是大数据架构应逐渐向“以机器为学习主体”的目标架构阶段性演进。与传统的数据仓库建设方法类似，前期可根据应用需求，选择知识图谱、智能机器人等应用方向，基于特定领域设计应用场景，逐步建立起针对内外部数据自动采集、整合、分析以及自动学习优化算法的能力，通过场景驱动逐渐推动大数据应用架构向大数据智能化架构演进。

2.4大数据生命周期管理

大数据生命周期管理与传统数据生命周期管理在流程上比较相似，但大数据环境下的数据清理，与传统数据清理区别较大。对于传统数据而言，数据质量是一个很重要的特性，但对于大数据，数据可用性则更为重要，传统意义上的垃圾数据，也有可能变废为宝。对于不同的可用性数据，应建立不同的数据质量标准，如应用于财务统计的数据和应用与分析的数据，在质量标准上有所不同，有的需求注重数据全面性但对质量要求不是特别高；有些需求，如审计与风险，则严格关注垃圾数据并从中发现问题。因此，大数据应用中不建议直接清理垃圾数据，可通过数据质量分级，不同质量等级的数据满足不同层次的应用需求。

2.5大数据服务创新

大数据治理与数据治理最大的区别在于两者的关注点不同，数据治理主要是为了保证数据能够反映并还原真实业务，促进数据与业务的一致性，使企业能基于真实的数据环境更好地开展各项业务活动，产生间接价值。但大数据治理更多关注发挥大数据的应用价值，通过大数据深化应用、深度学习算法模型去发掘隐藏在海量大数据中的规则、模式、关系等知识，从而指导业务部门开展领先于市场竞争对手的高价值、低风险的业务活动；通过支撑新产业和新业态的跨界深度融合，甚至为企业开辟全新的市场空白地带，促进公司业务的全面创新与高速发展。

3.总结

本文从大数据视角将新一代人工智能定位为相对于大数据深化应用更高阶段的知识提取过程，并指出了两者的明确区别：以人为学习主体的大数据深化应用阶段和以机器为学习主体的新一代人工智能应用阶段；两者的共同之处都是从大数据到知识转化过程。在大数据转化为知识的过程中，以应用场景为驱动，通过大数据治理各项业务活动，促进大数据、人工智能技术的深度融合，释放“智能红利”，推动新一代人工智能应用逐渐落地。

中翰软件：专注数据治理16年（http://www.jobhand.cn）

分享到： QQ空间新浪微博微信 QQ好友更多