数据空间
您当前的位置: 首页 /新闻资讯

从大数据与“全数据” 看归纳问题

发布时间:[2019-05-21] 来源:同花顺财经 点击量:

中国企业数据治理联盟www.chinaedg.com/

进入》主数据管理    企业数据治理   信息资源规划   数据安全管理

随着大数据技术在工业与社会生活各方面的广泛应用,大数据技术应用的哲学研究也在不断推进。其中一个重要问题是牛津大学教授迈尔-舍恩伯格(Viktor Mayer-Sch?nberger)所言的更多:大数据获取的不是随机样本,而是所有数据,即全数据。学者对这一观点纷纷表达了自己的立场:赞同者认为,与小数据时代相比,大数据能够收集与分析海量数据(603138),实现了全样本数据;反对者则认为,由于数据表征的局限性,大数据并未实现全数据。事实上,无论是赞同还是反对,他们大多是从数据表征事物这一立足点来进行讨论。为了更深入地认识大数据与全数据的问题,可以反其道而行之,即从事物在何种程度上能够被数据所捕捉入手,讨论何为全数据以及大数据与全数据的关系。

何为全数据

全数据指可显现且能被数据化的事物事物是纷繁复杂各不相同的万事万物的总名,它既包括实体性的物,也包括具有关联性、时间性的事。在大数据背景下,人对事物的认识不再直接地面对事物的自然外显,而是面对被技术化的事物,即事物数据人。在此情形下,事物的自然显现已不再是我们的认识对象,大数据技术建构事物并呈现出来的数据才是我们的认识对象。大数据技术能够在何种程度上建构与呈现事物?这涉及事物的显现与数据之间的关系。事物与数据的关系可以分为三种情形:一是可显现的,其中有能被数据所捕捉的,也有数据不能达及的;二是若隐若显、若有若无的,它可能在某一瞬间被数据把握并以数据的形式表征出来;三是不可显现的,因而也不可能以数据的方式通达。从这三种情形可以看出,全数据所指的并不是万事万物,而是可显现的、能被数据化的那部分事物。

与此同时,从的视角来看,全数据是一个兼具客观性与主观性的概念。数据来源于事物,因此,全数据的客观性指的是事物能被数据完整、准确地表征。正如前面提到的,在事物已敞现的层次上,全数据就是以数据化的方式如实呈现与镜像事物所能敞现的部分,进而形成高度解析的、微粒化的事物。而对于那些尚未敞现或尚无力捕捉的事物,全数据则是借助大数据技术的发展与其他新科技促使它们敞现,进而真实地把握。

然而,客观的全数据是基于诸多技术的,技术在赋予其客观性的同时也不可避免地带来主观性。也就是说,是否是全数据涉及认识主体的主观判定。具体而言,全数据受到技术工具、认识对象等多种因素的影响,因而具有不确定性。一方面,在以数据为中介认识事物的前提下,认识工具在很大程度上决定了可获数据的质与量。例如,大数据时代,大数据技术处于不断地更新与发展之中,在不同的发展阶段获取的数据质与量会存在差异。另外,由于主体应用大数据技术的水平与能力的限制,会不可避免地导致不同主体对其所获数据是否是全数据的判定存在一定的差别。另一方面,全数据还会受到认识对象的影响。数据来自于自然界、生命与人类社会,其中前两者多涉及自然科学,相较于人类社会而言,研究对象能在较大程度上 转换为数据;而后者则涉及人类社会与社会事务的数据化与计算化,其中不仅人类认识的无意识部分等内容难以数据化,而且存在政治情感、社会关系等数据化的准确性问题。总而言之,全数据只是对事物中可观察到的、可数据化的内容的表征,它们会因人而异、因地而异和因时而异。

大数据不等于全数据

通过上面对全数据的阐述,对于大数据与全数据的关系,我们可以得出这样一个基本判断:大数据不等于全数据

一方面,大数据可以从量的方面认为是海量数据,却不能等同于全数据。尽管当下对于大数据概念还存在多义与含糊的情况,但就大数据在量上的特征还是取得了一致的共识:海量数据,它将以往所不能获取的文字、方位、沟通、心理等内容都数据化,并因而产生取之不尽,用之不竭的数据。依据上面的分析,尽管较之小数据时代已是海量数据,但全数据的外延大于大数据,因而不能将大数据称为全数据

另一方面,全数据是人们借助技术追求确定性世界的一种理想情形。技术是寻求确定性的工具,而大数据技术则是当下最有力的工具,其核心力量在于它所宣称的量化一切,并在此基础上了解当下、把控未来。尽管当下大数据技术还不能量化一切事物,但随着大数据技术的不断发展,其数据化的对象范围必将进一步扩大。甚至伴随科学技术的进展,可能会出现其他更为强大的数据化技术,进而让人们无限趋近全数据的理想。或许正是在此意义上,全球数据仓库技术专家宝立明(Stephen Brobst)2018年发表的演讲数据分析的未来中指出,应以全数据思维取代大数据思维,因为未来,大数据这个词或许会消失,取而代之的是数据或所有数据(全量数据),但数据分析会一直存在

审慎认识数据归纳

无论是当下的大数据还是作为理想的全数据,它们的共同实质在于:不直接面向事物本身,而是间接地透过数据认知与把握万事万物。具体如何认知与把握呢?数据分析是关键所在。数据分析是一个较为宽泛的概念,只要是对数据进行的计算、处理进而实现从数据、信息到知识的过程都可以称为数据分析。对于大数据而言,在诸多大数据分析技术的方法中,数据归纳最为显著。在数据归纳的视野中,万事万物的数据化形成全数据,在此基础上,以归纳法为中心的数据驱动是其核心内涵。例如,就大数据挖掘而言,包括分类、聚类、关联规则挖掘等方法。分类主要将数据集按照建立好的分类模型进行分类,决策树是常用的分类技术之一,其实质是以实例学习为基础的归纳学习算法;聚类也是将一组数据按照相似性与差异性分为不同的类别;关联规则挖掘旨在发现事物之间可能存在的联系,也是按照数据集支持度和信任度的符合程度进行分类。

尽管大数据时代的数据归纳较之传统的样本数据归纳在样本的量、多样性以及计算能力等方面有很大的改进,但仍旧面临着归纳结果准确性的问题。其原因既有归纳法本身的缺陷,也有数据归纳所引发的新问题。具体来说,如果将传统的归纳法简化为事物归纳,那么数据归纳则是事物数据归纳。因此,数据归纳结果存在的问题就可以从两个方面来分析:一是从事物数据这一过程来看,是不可能的且是不确定的。若将数据归纳立足于全数据,这一基础并不存在:就来说,数据归纳的基础是海量数据而非全数据;就来说,海量数据也并不一定能准确反映外显的、数据化的事物,可能捕捉到的是假象。二是从数据归纳这一过程来看,目标变量的定义、训练数据选择、类标签设定以及噪音数据等问题都可能造成大数据描述与预测的不准确。

因此,我们在充分利用数据归纳优势的同时也需要审慎地认识数据归纳。尤其是对于社会科学研究而言,分析人类社会现象既不能用显微镜,也不能用化学试剂。二者都必须用抽象力来替代。也就是说,只有运用人类的抽象思维能力,启动从具体到抽象再到具体的思维过程,解读数据归纳发现的相关性,剥离那些偶然的、非本质的相关性,才能深刻把握人类社会。

来源:同花顺财经


发表评论 共有条评论
用户名: 密码:
匿名发表