新浪博客

聊聊AP统计( AP Statistics)之三:Descriptive Statistics (一)

2017-06-21 16:38阅读:
第三讲开始来说说描述性统计学。
从这讲开始,咱们来看看一些统计学常用的分析问题的图表、工具、术语,要求大家能自己画出这些图表来,并且记住如何来描述这些图表的统计学特征,重点在于区分什么情况下应该选用什么样的图表。
注意:不要以为这些比较简单就轻视它。大题第一道,一定是考这些东西,年年如此。

第一步:categorical 型数据和quantitative 型数据的区分。
这个是AP统计学的入门概念,如果你在中国读统计学的话,大家一般是不做这个区分的。Categorical型数据,我们把它翻译成“分类型数据”,Quantitative 型数据,译作“数量型数据”。
什么是分类型数据呢?其特点就在分类二字,不论数据来源如何,只要你是按照分类的原则进行处理的,那么这样处理之后,就得到了categorical 型数据。
比如说,我有这样一个班同学参加某考试的成绩:
39, 70, 60, 75, 18, 23, 23, 26, 96, 37, 55, 8, 40, 48, 56, 42, 48, 52, 38, 44, 59,
60, 62, 18, 80, 82, 36
如果按照10分一个区间,将0分到100分划分成10个区间,实际上就将上面这组数据分成了10类,这就叫categorical 型数据了。
总结之后如下表所示
Categories
Frequency (频数)
0-10
1
10-20
2
20-30
3
30-40
4
40-50
5
50-60
4
60-70
3
70-80
2
80-90
2
90-100
1

其中的第一类,可以叫做“0-10”类型,也可以叫做类型一,随便你起什么名字。“10-20”类型,也可以叫做类型二,以此类推……我们就有了10个类型。
然后在平面直角坐标系上,横轴为类型,纵轴为频数,就可以做出如下图所示的Bar Chart(柱状图)。
聊聊AP统计( <wbr>AP <wbr>Statistics)之三:Descriptive <wbr>Statistics <wbr>(一)

注意:Bar Chart 是用来描述Categorical 型数据的,要特别和用来描述Quantitative 型数据的直方图Histogram 加以区分,因为这两个图实在是长得太像了。

同样是上面这个故事背景,换一种数据处理方法,就会得到Quantitative 型数据所对应的直方图Histogram.
聊聊AP统计( <wbr>AP <wbr>Statistics)之三:Descriptive <wbr>Statistics <wbr>(一)


此直方图做法如下:
1、 在平面直角坐标系的水平轴记为成绩,纵轴记为频数。
2、 在水平轴上,将从0100均分成10个区间。
3、 成绩落入每个区间内的人数作为对应区间的小长方形的高度。
同学们会发现,用这样的方法画出来的Histogram 和上面那个Bar Chart 极为近似。为了加以区分,做出如下说明:
1、 Bar Chart因为描述的是Categorical型数据,所以:
a) 不同的Bar之间的距离不一定要相等(也就是说上面的Bar Chart中十个Bar之间的距离可以不相等),换句话说,不同Bar彼此可以紧紧挨着,也可以不挨着,离远离近都可以。
b) 不同的Bar之间不一定有严格的先后次序(也就是说,上面的那个Bar Chart中的几个柱子可以前后颠倒,打乱次序)。
c) 当然我们画图的时候一般不会天马行空,随心所欲地画,一般会把不同Bar 之间的距离画成相等,不同Bar的次序也尽量有一些规律。
2、 Histogram 因为描述的是Quantitative 型数据,而且绘制过程中首先是对横轴进行了切分,所以:
a) 所有的Bar都是彼此紧紧挨着,如果出现某区间内是空白,那是因为该区间对应的频数是0
b) Bar之间有严格的前后次序。
c) Histogram 的横坐标都是标在Bar的长方形的竖线下方,而Bar Chart的横坐标都是标在长方形下方的正中央。
总之,用康德的话来说就是“The human understanding is the true law-giver of nature”(人的理性为自然立法)。数据本身无所谓Categorical 或者Quantitative,你把数据分成若干类来处理,这些数据就是Categorical型数据;你把数据按照画直方图的方式分配到了各个区间里面,这些数据就是Quantitative型数据。
当然,在很多情况下,大家并不需要做这么细致的理解,比如下面这个表格统计的是某班同学的鞋子的颜色

Colors
Frequency
Red
2
Blue
5
Black
9
White
16
Other
7

这组数据就是很明显的分类型categorical数据,按照鞋子的颜色分成5类,我们根本就不考虑Quantitative的问题了。

接下来我们会进一步介绍
categorical 型数据常用图表以及quantitative 型数据常用图表。

我的更多文章

下载客户端阅读体验更佳

APP专享