统计学第三章课堂笔记
2008-02-02 20:14阅读:
第三章 统计数据的整理与显示
3.1 统计整理与统计分组
一、统计整理的意义和步骤
统计整理:将统计调查得到的原始资料进行科学的分组和汇总形成综合统计资料的工作过程。
地位:是统计调查的积蓄,统计分析的前提和基础
内容:统计数据的处理:统计资料的分组、汇总及制表
统计数据的管理:数据的传输、贮存、更新及输出
步骤:制定统计整理方案——对原始资料进行审核(剔除有害信息)——数据处理——制作统计表或统计图
二、统计整理的基本方法——统计分组
统计分组:将总体中所有单位按一定的标志分为性质不同但又有联系的若干部分的过程。
统计分组的作用:划分社会经济现象的类型(全民所有制、集体所有制等);反映社会经济现象的内部结构和比例关系;揭示社会经济现象之间的相互依存关系。
总体经过分组,能够突出组与组之间的差异而抽象掉组内各单位之间的差异,使数据变得条理化,便于进一步分析研究。
统计分组的程序与原则
选择分组标志——确定分组体系——总体单位归类
科学性:组间差异大,组内差异小;
完备性和互斥性:每个单位均能却只能归到某个组中。
分组体系:指同时使用两个以上标志分组时,分组标志的组合形式。
平行分组体系:各分组标志并列使用
各分组标志并列使用,并且互不影响,分组数目为各标志之和
交叉分组体系:各分组标志交叉结合使用
各分组标志交叉使用,相互交叉,分组数目为各标志之积
3.2分步数列的编制
一、分布数列的定义及种类
分布数列:将总体个单位按某个标志分成若干组,列出各组的总体单位数或各组在总体中所占的比重而形成的数列。
构成要素:分组标志的具体表现;各组的次数或频率
分类:品质数列;
变量数列:单值数列;
组距数列:等距数列;异距数列
二、变量数列的编制
单值数列:指每个组值只用一个具体的变量值表现的数列
编制条件:变量是离散变量
变量的不同取值个数较少
(同时具备)
【例】已知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,
22,25,26,20,21,21,22,22,23,22,22,
24,25,21,22,21,24,23,要求根据以上资料编制变量数列。
编制结果:
日产量(件)X
|
工人数(人)f
|
20
|
3
|
21
|
5
|
22
|
6
|
23
|
4
|
24
|
3
|
25
|
2
|
26
|
1
|
合计
|
24
|
组距数列:指每个组的变量值用一个区间来表现的变量数列。
编制条件:变量是连续变量;
或:总体单位数较多,变量不同取值个数也较多的离散变量。
等距数列:变量值变动区间的长度相等
异距数列:变量值变动区间的长度不完全相等
相关概念
组限:指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限。
组距:每组变量值变动区间的长度,为上下限之差。
组中值:每组变量取值范围的中点数值。
组中值=(上限+下限)/2
【例】上限U,下限L,组距d=U-L,组中值x=(U+L)/2
编制等距数列
适用于总体单位的标志值变动比较均匀的情况
实例
已知某地区某年50个商店商品销售额的资料如下:(单位:百万元):
7.4
12.6
29.0
2.0
12.4
7.0
14.
……………………
编制步骤:
1、求变异全距
R=X最大-X最小=29-2=27(百万元)
2、确定组距及组数
R≦组距(d)×组数(m)
确定组距的原则:要能区分各组的性质差异;要能反映总体资料的分布特征;为方便计算,尽可能为5或10的整数倍。
计算组数(组数不宜过多,也不宜太少)
m=R/d
(当R/d的结果为整数时)
m=[ R/d]+1
(当R/d的结果为小数时)
上例中,取d=5,则有
m=[ R/d]+1=[27/5]+1=6(组)
3、确定组限
组限的表示方法:对于离散变量,相邻组组限可以间断,也可以重叠;
对于连续变量,相邻组组限必须重叠;
符合“上组限不计入”原则;(硬性规则)
首末两组可使用“××以下”及“××以上”的开口足。
4、计算次数
分组划记法
茎叶图法
将每一观测值分解为茎值和叶值(用直线隔开)
垂直线左边的数字称为“茎”,确定组别
垂直线右边的数字“叶”,确定频数(计数)
重点:开口组距数列组中值的计算:
先计算开口组的假定上、下限
首组假定下限=首组上限-相邻组组距
末组假定上限=末组下限+相邻组组距
因此有:首组组中值=(首组上限+首组假定下限)/2=首组上限-相邻组组距/2
末组组中值=(末组下限+末组假定上限)/2=末组下限+相邻组组距/2
频率 :各组单位数占总体单位总数的比重
三、累计次数(或频率)
向上累计:从变量值
低的组开始,将各组次数(频率)逐次向变量值
高的组累计,说明某一
组上限以下各组的累计次数(频率)
向下累计:从变量值
高的组开始,将各组次数(频率)逐次向变量值
低的组累计,说明某一
组下限以上各组的累计次数(频率)
(作用:能帮助我们从整体单位把握比重,有助于分析)
3.3统计图表
一、统计图
统计图:以点、线条、面积等方法描述、现实统计数据的形式。具有直观、醒目、易于理解等特点。
组成:坐标系、图形、图例
单式图:一个图只用来显示一种现象的数量特征
复合图和叠加图:用一个图同时显示几种数量的分布或变化情况。
几种常见的统计图
条形图(Bar):用于显示离散性变量的次数分布。比较醒目直观,但只能表现离散性变量。
直方图(Histogram):用于显示连续型变量的次数分布。
(直方图和条形图的区别:直方图断开的地方表示变量值为0,条形图断开的地方则不是)
圆形图(饼图Pie):主要用于显示定类变量的次数分布。(无主次先后优劣之分)
线图(Line):主要用于显示连续性变量的次数分布和现象的动态变化。
散点图(Scatter):主要用来观察变量间的相关关系,也可显示变量随时间的变化情况。
二、统计表
统计表:以纵横交叉的线条所形成的表格来表现统计资料的形成。具有容量大、方便计算等特点。
统计表的常用结构:
总标题
统计表的编制规则
选择合适的总标题(言简意赅,包括重要信息)
主词栏与宾词栏要各归其位,相互对应;
表的上、下端用粗线或双线封口,左右两端一般不封口;
可在各列的文字标题下面设置编号加以标识;
数据栏不能有空白。
统计表的加工方法
对主词栏加工(对主体进行分组):单式加工;复式加工
对宾词栏加工(选择指标及对指标进行分组):简单分组;交叉分组
数据表示中的错误(Errors in Presenting
Data):1、使用花哨(Junk)图表;2、数据比较时没有可靠的相对基准;3、压缩纵轴(Compressing the
Vertical Axis);4、纵轴上无零点(No Zero Point on the Vertical Axis)
花哨图表——在报纸、杂志上的图标里通常都会加上花哨的图标和符号以增加吸引力,这种做法常常会掩盖或曲解数据应传递的准确信息。
无相对基准——通常百分比之间较为可比,而绝对数之间比较却可能产生误解。不适当的图标也会影响数据比较的准确性。
压缩纵轴——纵轴无零点——纵坐标设定不恰当。(放大数据表示趋势容易误导数据使用者)