新浪博客

《大数据时代》之“全体数据”的内涵讨论

2014-08-22 10:53阅读:
由于未获得《大数据时代:生活、工作与思维的大变革》的英文原版,所以不好确定原文用哪些词语来指代“全体数据”这一概念。因此,下文提及“书”与“全体数据”这两个概念时,仅指周涛译本及译本中“全体数据”这一译名。
首先,列举几个书中对“全体数据”相关概念的描述:
1)书中第1章开篇即“不是随机样本,而是全体数据”,”在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。
*这是书中第一次提出“全体数据”的概念及内涵,“全体数据”即所有数据的总体。
在此先不对“全体数据”概念进行讨论,且继续看书中所列举的例子,进一步解读“全体数据”的内涵

2)“首先,要分析与事务相关的所有数据,而不是依靠分析少量的数据样本。”'本章就将介绍第一个转变:利用所有的数据,而不再仅仅依靠一小部分数据。”
*本部分对应前文三个转变之一“在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个现象相关的所有数据,而不再依赖于随机采样”。对比两个部分可以发现,书中再次强调了“所有的数据”是大数据应用的基础,甚至没有了前文的“有时候”。
3)“全数据模式,样本=总体”,后文对此举例“谷歌流感趋势预测并不是依赖于对随机样本的分析,进而分析了整个美国几十亿条互联网检索记录。分析整个数据库,而不是对一个小样本进行分析。”对“全数据模式”进行了解释
*在这里可能已经能发现,这里所谓的“全数据”并非针对某个事物的所有(ALL)数据。通过例子可以看到,首先,即使在美国也不会出现所有流感患者或其家人都会上网查询流感信息的情况,几十亿条互联网检索记录也不会是美国流感情况的“全数据”;其次,“整个数据库”不等于问题“全数据”
4)“大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。谷歌流感趋势和乔布斯的医生们采取的就是大数据的方法”
*此处进一步强调了“大数据”分析采用的是“所有数据”,并以例说明。对于谷歌流感趋势这一案例已在前面解释过,其分析数据不是“所有数据”;针对“乔布斯的医生”这一案例是否获得乔布斯所有基因组数据,博主并非生命科学专业人士,但是需要指出的一点是,在任何自然问题面前,人类的知识和探索手段总是显得匮乏,人类对自然的认识总是随着一次次重大发现不断提高,即使现在也没有人敢说我们已经了解了关于基因的所有问题。
5)随后,书中又举了移动通信记录研究人际互动的案例“他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于‘群体=总体’的数据资料进行网络分析“
*此处很明显,“四个月内”“全美五分之一人口”即“接近于‘群体=总体’”这是不成立的,甚至这种样本作为小样本都是不合格的,因为根据运营商服务质量、价格的不同其受众群体是有显著区别的,以这种样本数据作出的结论是否是普适的值得商榷
前文针对《大数据时代:生活、工作与思维的大变革》书中对大数据时代的分析数据——“全体数据”是否是针对事物的“所有的数据”或样本全集进行了一些讨论。通过书中描述和相关案例来看,大数据时代的“全体数据”并非针对事物的“所有的数据”,而是能够反映事物总体情况或主要特征的关于事物的大部分数据,但是关于“大部分”这个比例是多少还值得更进一步的讨论。
在此可进一步参考:解读《大数据时代》:为什么不是随机样本,文中认为所谓的“全体数据”只是一个陷阱,因为没有哪个公司,即使“谷歌”“facebook”也不能获得“全体”数据,其数据总是有设定性的局限。而针对政府机构,即使国家层面的数据采集管理机构,要获得针对某一问题的绝对全部数据也是非常困难的事情。拿人口普查来说,虽然采取了重复登记、见人就查等保障手段,也总会出现遗漏的情况,这些手段只是让普查尽可能的获得关于人口的“全体数据”。

我的更多文章

下载客户端阅读体验更佳

APP专享