一、大数据与三个重大的思维转变有关。
统计不能依靠一小部分数据而是所有数据。统计学家们一直追求的目标,就是要通过采样分析来以尽量少的数据量得出尽量多且准确的知识,为了取得样本的随机性,统计学家们作出了大量的努力,但这种随机采样是在不能收集和分析全部数量的情况下进行的选择,存在有很大的缺陷。在信息处理能力受限的时代,世界需要数据分析,随机采样应运而生,它是那个时代的产物。而现在,由于我们计算机存储能力、计算能力以及互联网等技术的充分发展,我们得以进入大数据时代里的“全数据模式”。在“全数据模式“里,样本=总体。因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以我们就可以正确地考察细节并进行新的分析。正如书中所讲案例,是大数据让我们发现了相扑中的非法操纵比赛结果、流感的传播区域和对抗癌症需要的针对的那部分DNA,它让我们能清楚分析微观层面的情况。
不是精确性,而是混杂性。整个社会要习惯这种思维需要很长时间,其中也会出现一些问题。我们现在所处的数据时代,对信息的掌握越来越全面,在掌握了大量数据的时候我们不需要担心某个数据点对整套分析的不利影响,我们要做的就是接受这些数据并从中受益,而不是以高昂的代价来消除这些不确定性。
更好不是因果关系,而是相关关系。在大多数情况下,一旦我们完成了对大数据相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。
统计不能依靠一小部分数据而是所有数据。统计学家们一直追求的目标,就是要通过采样分析来以尽量少的数据量得出尽量多且准确的知识,为了取得样本的随机性,统计学家们作出了大量的努力,但这种随机采样是在不能收集和分析全部数量的情况下进行的选择,存在有很大的缺陷。在信息处理能力受限的时代,世界需要数据分析,随机采样应运而生,它是那个时代的产物。而现在,由于我们计算机存储能力、计算能力以及互联网等技术的充分发展,我们得以进入大数据时代里的“全数据模式”。在“全数据模式“里,样本=总体。因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以我们就可以正确地考察细节并进行新的分析。正如书中所讲案例,是大数据让我们发现了相扑中的非法操纵比赛结果、流感的传播区域和对抗癌症需要的针对的那部分DNA,它让我们能清楚分析微观层面的情况。
不是精确性,而是混杂性。整个社会要习惯这种思维需要很长时间,其中也会出现一些问题。我们现在所处的数据时代,对信息的掌握越来越全面,在掌握了大量数据的时候我们不需要担心某个数据点对整套分析的不利影响,我们要做的就是接受这些数据并从中受益,而不是以高昂的代价来消除这些不确定性。
更好不是因果关系,而是相关关系。在大多数情况下,一旦我们完成了对大数据相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。
