- 理论支撑:企业财务大数据[2022-06-16]
- 数据治理的时代演变之道[2022-06-15]
- 数据治理的经济分析[2022-06-14]
- 实施数据治理时常犯的10[2022-06-13]
- 数据质量管理办法[2022-06-10]
- 治数VS养数[2022-06-09]
- 华为是怎么做数据治理的[2022-06-09]
- 数据发现对数据治理的重[2022-06-08]
- 工业企业数据治理的八大[2022-06-07]
- 企业数据治理团队的十大[2022-06-06]
刘铁斌:行业数据治理对市场发展的意义
由中国期货业协会与深圳市人民政府共同举办的“第11届中国(深圳)国际期货大会”在深圳召开。
本届中国(深圳)国际期货大会与往届相比形式更加丰富多元,以“跨界、跨境、跨越”为主题,邀请了梅拉梅德等全球顶尖的金融衍生品专家、学者及深圳市政府及证监会领导、国内外主要交易所、金融企业、上市公司等领袖精英参会。大会将围绕“如何更好地服务实体经济风险管理,促进期货与现货、境内与境外、场内与场外、线上与线下的互联互通以及金融混业、跨界融合的发展”等业界关心的重大课题深入研讨。和讯期货参与现场直播。
中国证监会信息中心副主任刘铁斌先生进行发言,他的演讲题目是“行业数据治理对市场发展的意义”。刘主任对行业信息技术十分熟悉,对行业数据治理分析也非常透彻、全面,做好期货行业数据治理对于市场发展具有非常重要的意义。
以下为文字实录:
刘铁斌:尊敬的各位领导、各位嘉宾,大家上午好!这次应小国会长的邀请让我讲行业数据治理对市场发展的意义,这项工作对我们行业是非常重要的,而且这项工作是由很多专家来完成的,我在这里是对这项工作进行总结和汇报。这是今天要讲的三个方面内容,一个是行业数据治理的概述,第二是专业领域的介绍,第三方面是展望。
首先跟大家汇报一下行业信息化现阶段重点工作,主要是分成四个方面:首先是行业开源联盟,今年以来我们成立了行业的开源联盟,成立了相应的开源开放的小组。主要的目的是为了将来在信息技术方面能够做到完全自主可控。开源联盟对我们行业未来发展的意义非常重大,这是我们未来开展工作的一个重点。第二方面是行业网络治理,这是以证联网为基础,去年上半年我们已经建立了行业的证联网,行业所有的机构,包括证监会及其派出机构,所有的市场核心机构、证券期货基金公司都接入了证联网。现在已经有十几家存款银行刚刚接入证联网进行系统测试,很快就能够实现在证联网内的转账业务。证联网将来是除了交易以外行业的一个通信专网,以后所有的数据存储,数据中心也是通过证联网来存储数据,包括行业的实验室、测试中心,以及将来在证联网当中还要建立一个测试网。这块未来的发展会给大家提供更多更好的服务。第三方面是行业数据治理。第四方面是行业云服务,大家知道这些年云计算、大数据这些新技术为我们行业的发展也带来很多推动作用。尤其是在云服务方面,实际上行业外的机构在这方面做得非常好,包括恒生的金融云,包括京东等等,他们做的云服务也非常好。我想更家重要的是我们行业内的云服务,这牵扯到行业的数据安全问题。所以我们非常鼓励行业内核心机构积极承担起行业内私有云的建设,能够为行业所有的机构提供更好的服务。
数据治理是对数据资产管理行使权力和控制的活动集合,包括规划、监控和执行。它包括很多,数据质量管理、数据架构管理、数据开发等八个方面。另外可以从战略、组织与角色、政策和标准、项目和服务、问题、估值等方面进行数据治理的活动。可以说数据是最核心的资产。尤其在当前来讲,数据安全是最重要的组成部分。所以我们也要求行业内所有的机构一定要做到数据的三点存放,本地、同城和异地存放。我们现在也对数据进行分级分类管理。
数据治理的意义有四个方面:首先是有利于行业数据统一,这对行业来讲是非常重要的。后面所进行的一系列工作都是为了行业的数据统一。第二是促进行业标准化发展,降低数据交换成本。第三是便于通过数据特征发现市场异动,有效助力监管的决策。第四是推动资本市场业务功能发挥。
数据治理的战略目标是全面建成具有国际先进水平的资本市场数据治理体系,支持多层次资本市场建设,为推进跨市场互联互通,促进市场集约高效运行,降低市场成本,提升监管效能,保障市场信息系统安全稳定运行奠定基础。这是数据治理的战略目标。我们主要是从五个方面进行数据治理的工作。
我先给大家介绍一下标准化的工作,这是跟数据治理息息相关的。证标委是国标委领导下的金标委下面的期货分委会,证标委的工作是非常出色和优秀的,尤其是这两年来我们通过划分11个专业领域,我们成立了11个标准化工作组,每一个工作组有一位首席专家来引领这个领域的标准化工作。包括数据治理的五个方面,数据模型、基础编码、信息披露、机构间接口和机构内接口。还有三个业务标准化工作组。还有系统安全和数据安全。这11个工作组最近是制定未来3-5年的标准化工作,我们要制定多少标准,未来标准化工作怎么发展,这是我们证标委所做的重要工作。从专业领域分类是五个方面,基础编码类,接口标准类包括数据模型、机构间接口、机构内接口和信息披露。
行业数据的特点有八个方面,一个是标准化程度高,对整体性要求要求高,对业务持续性要求高,对外部环境依赖度高,变动频繁,主体分散。我们有17家市场分析机构,有370多家市场经营机构,同时还和行业外有很多数据交换。发展时间短,期货交易市场发展了20多年,是一个新兴产业,但是数据的量是相当大的,每天产生的数据以T来计算。影响面也很大,尤其是证券行业交易行情的波动对整个社会的影响也相当大。今年就出现很多问题,行情波动的时候监管部门要数据,各个交易所报上来的数据都不一样,在同一个项目上报的数据不一致,理解不一样,导致监管部门收集数据相当困难,很难得到真实准确的数据,所以很难得出供决策参考的依据。
这是我们编制的行业顶层数据流图和主要中介机构的机构内数据流图。大家可以看到所有的这些线都是机构之间数据交换的数据流图,非常复杂。这个工作主要是监管中心的谢部长带领大家完成,工作也相当有效。行业数据治理包括这五个方面,首先给大家介绍一下行业编码。这5个专业工作组18项具体的工作任务。基础编码类工作是相当重要的,它主要的内容是研究规划行业的基础编码体系,组织制定行业编码体系制定工作指南和一系列基础编码标准。现在已经在做的,包括证券期货市场的金融产品、金融衍生品、参与机构、投资者、账户、相关金融工具等分类及编码标准、规范以及相关的规范和工作指引。
这几个工作组都在做一个事情,要规划出来这个领域到底需要做多少标准。各个专业工作组首先按照几个维度对整个领域的工作进行策划,所以在这里面就是按照三个维度,按照参与人、产品和场所做出一个相当于三维的模型,把所有需要制定的标准点都找出来,找出来以后再来确定哪些节点需要做标准。然后从这个过程当中再提炼出来我们认为必须要制定的标准关键节点。按照这三个维度理出了大体的,后面还有很多表,今天只是简要地介绍一下。
行业数据模型,这个工作是具有开创意义的一项工作,在国际上还没有对证券期货行业的数据进行完整的梳理。这里我会稍微多一点介绍这个工作。它是以证券期货行业相关的法律法规、业务规则、制度及流程为依据,以交易、监管、披露三大业务线条为切入点,完成对行业中各种业务的全面遍历。根据行业顶层数据流图及机构内数据流图来提取市场全业务流程与数据共性,形成真正意义上统一、完备的具有通用性、稳定性和拓展性的资本市场多层次数据模型。这里分成三部分,抽象模型、逻辑模型到物理模型。抽象模型是规范和指导数据治理,统一各种协议、接口、编码、报文格式等技术标准,建立基于数据模型的行业技术标准体系。逻辑模型是形成可以直接物理化的表,便于各单位应用系统物理化建设。我们现在做的工作逻辑模型这块已经基本上完成,下一步就是从逻辑模型再到物理模型,会制定很多表格供大家使用。
这个是行业数据模型总体的方法论,是通过行业的顶层数据流图来识别业务点,梳理数据模型。通过主体行为关系这个表,通过交易、监管和信息披露这三个方面,最后分类、分层描绘产出物。下面这个就是数据模型的公式,P1就是所有的交易、监管、信息披露,所有共性的数据组成P1这个集合。P2是说这三个部分各自的数据。P3就是每一个部分自有的数据,没有重复使用过的数据。交易模型是从品种出发,以CFI为依据,结合国内资本市场现状梳理出能覆盖国内现有证券品种的品种树,并从品种树入手,对各品种分别按照行为、过程、进行遍历,提取数据模型的方法。监管模型不一样,它是以相关的法律法规为依据,对监管对象、监管主题、监管方式进行三维分析,并在此基础上梳理出数据模型的方法。披露模型是基于信息披露模板,通过映射模板制定出语义独立的数据表,提炼数据项和数据表,充足后进行逻辑推演和测试验证,回归迭代后形成数据模型的方法。
数据模型分成四类数据,一个是原子数据,业务上独立的,能够从行业模型构建的角度不需要再分的最小数据单元。复合数据是原子数据通过某种关系组合或加工而成,依照复合方式可分为结构性复合数据、计算类复合数据。可复用数据表由原子数据或复合数据组合的集合,并可在多个业务场景中被重复使用。语义上独立的数据表是由以上三者组合而成的集合。
这个是数据模型成果之一,模型产出物,包括公共类、有品种属性、主体分类和财务主表,还有包括交易、监管和披露。从逻辑模型看,行业属性代码,然后是六类机构。数据模型的成果之二就是模型管理平台,我们现在做了一个自动化的模型管理平台,这个平台具有很强大的功能,可以采集数据,这个数据是通过文件形式,包括Excel表以及特定的文件形式录到数据库,在入库当中也有检查的。现在做标准化工作,以前标准化工作是这么做的,哪个机构想做标准了提出申请给证标委,证标委觉得可以,然后请证标委所有委员审议,委员没有意见就做标准。标准不会做任何参考,我自己有哪些数据项列完以后就去做。另外的标准流程也是这么做。现在进行对比会发现,这两个标准之间,同样的数据项定义不一样,英文标识不一样,很难进行借鉴。这是我们证标委中重大的问题。为什么要搞数据模型,就是要把数据统一,原子数据统一。以后制定标准,标准化工作组先到数据库当中,到模型管理平台中看,我所要定义的数据项在数据库里有没有,有的话就直接接入,没有的话就自己新定义,定义完了以后新的数据项入库。这样就能够使行业的数据做到同一个数据项是唯一的,描述完整的。这个引擎还可以进行全文检索,里面有相关的系统参数配置、日志审计和数据到处等等。这个过程包括采集过程、评审管理、模型展示,里面包括顶层流图还有文件方式,因为将来还会有一些表格在里面。这个版本也经常在更新,现在模型管理平台是1.0版本,后面马上要搞2.0版本。尤其是以后通过网站,现在有中国证券期货信息网,大家以后在制定标准过程中,或者在其他的工作中都可以上这个平台进行查询。
为进一步划分多视角逻辑模型,这个是“1+6”的方式。这个是数据模型服务行业标准化,前期的编制,中期的评审和后期的发布,通过这三个步骤。模型现在在进行第二期的工作,第一期大部分的数据都已经理出来了,下面第二期的工作结合新的信息披露,现在很多新的业务推出,所以新的模型也要加入进来,新的数据要进行收集。同时第二期工作主要是把逻辑模型向物理模型转换,同时还要写一本书,在国内要组织行业内的宣传,和一些厂家进行沟通和交流,最后来进行推广。
机构间接口标准是以行业内的数据通信协议应用指南为依据,从业务类别、报文类别、数据类别、传输类别四个切入点进行分析归纳。在这里有一个分类,从交易、结算、信息披露、监管报送、行业间以及其他,我们用了比较多的FIX、FTD,结算是ISO20022,信息披露是XBRL。现在行业内主要的国标是XBRL系列,现在有5个国标。现在这一块还在做通用数据交换标准,现在是刚刚立项。机构内的数据交换,对机构来讲意义是非常重大的,现在每个机构可能有几十套系统,少的十几套,多的几十套系统。机构内部的系统如何进行数据交换也非常重要。很多机构是自己开发、自己做的话确实力不从心。所以在这一块证标委也做了大量的工作,我们也搞了相应的交换机构。这是企业内部的信息交换总线,通过建立机构内部数据交换平台达到数据统一交换标准。
信息披露在现在资本市场中是相当重要的,将来注册制主要是以信息披露为主,今后对上市公司,对经营机构的监管事中事后监管也是以信息披露为抓手。所以我们行业的信息披露,现在的数据量大,种类繁多,包括数据模型制定也花了大量的精力和做了大量的工作。信息披露的业务范围也有分级,有向公众披露的信息,有向监管机构、自律组织披露的信息,也有向特定对象披露的信息。我们现在这个阶段做的是物、分类等公共部分,基金信息披露,上市公司和非上市公司信息披露和股票发行注册的信息披露。股票发行注册这块沪深交易所在做,所以这块的信息披露工作正在收集,到底要披露哪些内容,两个交易所也制定了很多指引,在信息披露上两个交易所都制定了十多个指引。信息披露的方法论,通过映射、提炼、重组和回归,经过多次迭代以后形成最终的信息披露数据模型。
未来工作展望,行业基础编码类要跟踪行业基础编码方面的最新发展态势,按需修正基础编码体系规划,规范相关标准的制定工作。行业数据模型还是要进一步梳理形成业务全覆盖的抽象模型,针对六大用户视角梳理逻辑模型,继续建设行业数据治理平台,推进模型应用,支持中央监管信息平台建设,中央监管信息平台我多介绍一下,这个监管信息平台历时三年左右的时间把行业内所有的数据报送,所有的监管工作都放在这么一个监管信息平台上。所以数据治理最开始要做的想法就是要支持中央监管信息平台,这么大一个平台,包括证监会几十个部门,包括十几家核心机构,包括几百家经营机构的数据都要汇总到这个信息平台里面,而且这个信息平台有很多监管职能,所以一定要做到数据统一。另外是为行业标准提供素材和审核,数据模型推广和国际化。机构间接口标准未来有这么多的任务,我就不一一赘述了。机构内接口标准从五个域来进行标准的制定工作。行业信息披露主要做的包括新会计准则的对接,股票公开发行注册制信息披露模型,私募产品信息披露模型,还有一些其他的。
总体来讲行业数据治理工作对我们行业来说意义非常重大,它首先把数据进行收集,然后归类,然后模型化。其实对我们行业来讲,大数据的应用现在还为时过早,因为我们行业的数据主要是结构化数据,非结构化数据不是很多。但是行业数据的收集、治理工作也非常重要,数据不断地收集,达到一定的量,通过几十年的数据收集,我们能从中得出很多有价值的,可以利于我们未来发展的很重要的信息。所以这个工作是一个持久的工作,对每个机构也相当重要,机构自己的客户数据、经营数据如何更好地保存和应用,都是未来发展技术支持业务发展一个非常重要的抓手。我们在这方面工作,整个行业来讲工作做得还是不够的。这一两年证标委首先先带动整个行业的数据治理工作,也希望大家能够积极参与到这个工作中来,尤其对自己机构内部的数据如何妥善地保存和利用,可以借鉴上述这些方法。这些方法也不一定是完全准确和正确的,我们在不断地编制模型过程当中,把模型应用到实际工作中也会纠正之前的一些偏差,不一定是完全正确的。但是在目前现阶段来讲可能还是比较有效的。所以今后也希望大家对我们这个工作多提宝贵意见,多多参与。我今天就介绍到里,谢谢大家!中国企业数据治理联盟官网链接