算术平均值有两个重要的数学性质:①各个变量值与平均值离差之和等于零,②各个变量值与平均值的离差平方之和为最小值。
(2) 几何均值
几何均值(geometric mean)用 表示,为观察值的总乘积开
次方根。根据资料是否分组,也分为简单几何平均和加权几何平均两种方法。简单几何平均为:
为避免溢出及方便计算,常用对数计算,也称对数平均值,两边取对数有:
(3) 加权几何平均
几何均值适用于表达呈对数正态分布资料的平均水平。也常用于速度、比率等变量的平均。
(4) 调和均值
调和均值(harmonic mean )用
表示,为观察值的倒数求平均,然后再取倒数而得到的平均值,也称倒数平均值。调和平均值有简单调和平均值与加权调和平均值两种。简单调和平均值为:
加权调和平均值为:
调和均值适用于表达呈极严重的正偏态分布资料的平均水平。
(5) 中位数
中位数(median)用
表示,它将总体或样本的全部观察值分成两部分,每部分各有50%的观察值,其计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均值为中位数。
中位数是位置平均值,它不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比算术平均值更具有代表性。
(6) 众数
频数最大的变量值称为众数(mode),列为频数表的资料,频数最大的组的组中值为众数。适用于粗略地表示呈单峰分布资料的集中趋势。当数据个数较少时,众数就是出现次数最多的个数据。
(7) 百分位数
百分位数(percentile)以 表示,它将总体或样本的全部观察值分成两个部分,其中有 的观察值小于 ,(100- )%个观察值大于
。如百分之25分位数或称第25百分位数 ,表示有25%个观察值小于 ;75%个观察值大于 。中位数 就是百分之50分位数
。
2.
离散程度的指标
(1) 全距
全距(range)也称极差是一种离散指标,是最大与最小观察值之差。用极差反映总体分布的离散程度虽然简便,但它只从两端数值考察,忽略了中间数据的变动情况,不能说明整体的差异程度,尤其是存在极端值情况下,使用极差往往会造成错误的结论。
(2) 标准差与方差
标准差(standard
deviation)与方差(variance)是一种常用的离散指标,结合均值能给出正态分布的特征。标准差的平方为方差,标准差(或方差)越大,表示观察值的分布越分散;反之,标准差(或方差)越小,表示观察值的分布越集中。如果标准差为0,表示这组观察值都为一个相同的值。实际应用时常以均值±标准差的写法综合观察值的集中和离散特征。
总体的标准差和方差分别以 和 表示,样本的标准差和方差分别以 和 表示,当用样本标准差 作为 的估计值时,有:
其中, 为样本含量, 称为离均差平方和,也可以如下计算:
如用频数表资料,有:
(3) 变异系数
变异系数(coefficient of variantion)是一种离散指标,简记为
,它是标准差与均值之比,用百分数表示:
由于
无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。
(4) 标准误差
标准误差(standard
error)是统计量的标准差。因为统计量是样本观察值的函数,一旦样本改变,统计量的取值也会随之改变。为了避免与样本观察值的标准差相混淆,在统计学上,把反映一群性质相同的统计量离散程度大小的量称为标准误差。从理论上来说,只要给出了一个统计量,就有其相应的标准误差。在参数估计中,用样本的统计量去估计参数时,统计量的标准误差越小,表示抽样误差小,统计量较稳定,与参数较接近。
用 、 、 、 分别表示统计量 (样本均值)、 (样本率)、 (样本相关系数)、
(变异系数)的标准误差,它们的计算公式分别为:
|
(24.10)
|
|
(24.11)
|
|
(24.12)
|
|
(24.13)
|
(5) 四分位数间距
四分位数间距(interquartile range)是一种离散指标,它是第3个四分位数 与第1个四分位数 之差,即 。
(6) 偏度系数
偏度系数(skewness)返回分布的偏斜度,简记为
SKEW。偏斜度反映以平均值为中心的分布的不对称程度。正偏斜度表示不对称部分的分布更趋向正值。负偏斜度表示不对称部分的分布更趋向负值。偏斜度的计算公式为样本观察值
消除量纲影响的三阶中心矩,然后按样本数 进行无偏修正,定义如下:
式中, 为样本的标准差。
(7) 峰度系数
峰度系数(kurtosis)返回数据集的峰值,简记为
KURT。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布。负峰值表示相对平坦的分布。峰值的计算为样本观察值
消除量纲影响的四阶中心矩减去3(因为标准正态分布的四阶原点矩为3),然后按样本数 进行无偏修正,公式如下:
式中, 为样本的标准差。
二、 正态性检验
用于判断总体分布是否为正态分布的检验称为正态性检验。检验资料是否服从正态分布的主要方法有:Wilk-Shapiro(威尔克斯-夏皮罗)的
检验和Dagustino的 检验。 原假设为总体 服从正态分布。
1.
小样本的 检验
在观察值为小样本时,Wilk与Shapiro提出用如下的 统计量:
它可以看成是数对( )相关系数的平方,所以 的取值在0和1之间。系数
按标准正态分布构造,均值为0,标准差为1,且是对称值。不同的样本数 有不同的系列值。可以证明,在 原假设为真时,
的取值应接近于1。
2. 大样本的 检验
在观察值为大样本时,Dagustino建议用以下的 统计量:
在 原假设为真时, 统计量的标准化后渐近分布为标准正态分布。
三、 总体均值的估计和 检验
1.
总体均值的估计
总体均值用 表示,总体均值的估计包括点估计和区间估计。点估计即用样本均值来估计总体均值:
。点估计虽然简单,但未考虑抽样误差。区间估计即按一定的概率估计总体均值在哪个范围内,这个范围称为置信区间,这个概率称为可信度或置信度,用
表示,常取95%( )或99%(
),按此确定的可信区间分别称之为95%或99%可信区间。总体均值的区间估计因研究的问题和已知条件不同而用不同的方法。主要分成三种情况:
(1)
正态总体方差已知
如果总体服从正态分布 且总体的方差 已知,于是样本的均值分布为:
对 变量作标准化处理,得到统计量:
称为 检验。则总体均值的 可信区间为:
是抽样误差,
为一定倍数的抽样误差,称为极限误差,或误差范围。其意义是在给定的置信度的条件下对总体参数进行区间估计所允许的最大误差。
(2)
正态总体方差未知
实际上,总体均值 未知而总体方差 已知的情况是不常有的,通常的情况是 和 都未知。设总体服从正态分布 且总体的方差
未知。在这种情况下,可用样本标准差 来代替总体标准差 ,这样就得到了统计量:
称为 检验。则总体均值的 可信区间为:
2.
非正态总体
在大多数实际问题中,不能假定总体服从或近似服从正态分布。但是,根据中心极限定理,只要样本容量 足够大,样本均值
的抽样分布就近似为正态分布。若方差 已知(通常根据历史资料或经验得到),则可用公式(24.20)来计算总体均值的 可信区间。若
未知,则用样本标准差 来代替总体标准差 ,总体均值的 可信区间为:
3.
配对 检验
配对 检验(paried
test)用于配对试验设计(paired
design),它是按一些非试验因素条件将受试对象配对对子,给予每对中的个体以不同的处理。配对的条件一般为年龄、性别、体重等等。其优点是在同一对的试验对象间取得均衡,从而提高试验效率。有些试验中就同一受试对象作比较称为自身对照,例如,观察某指标不同时间的变化,或试验前后的变化,也属于配对试验。
想要比较配对试验中两种处理( 和 )的效果,或者自身对照中比较试验前后某指标( 和 )的变化。可以先求出成对数据之差
。在这种试验设计的情况下,可以认为均值 总体服从正态分布 且总体的方差 未知。用样本 标准差 代替总体标准差 ,然后使用 检验,检验
是否来自均值为0( )的总体。因此,配对 检验公式为:
4.
成组 检验
当按完全随机化设计的两个样本均值比较时,可用成组 检验(grouped
test),比较的目的是检验它们各种所代表的总体是否具有相同的均值,其假设检验 , 。
设总体 , ,如果 和 都已知,则
经标准化变换:
如果 和 都未知,但方差相等 ,其中 未知需要估计。由于 和 都是 的无偏估计,集中了各自样本中有关
的信息,故可以使用合并方差估计法(Pooled Variance Estimate),有:
然后,用样本合并标准差 来代替 中的总体标准差 ,这样就得到了统计量:
如果在 和 都未知的一般场合,即 。当 和 分别使用各自方差估计法(Separate Variance
Estimate),即分别使用其相合估计 和 代替后,有:
这时, 就不再服从 分布了,其形式很像 统计量。
近似 统计量概率水平的Chchran和Cox近似是如下统计量的 值:
用上面修正后的 统计量作出合适的统计推断。一般地,Chchran和Cox检验趋于保守。
另外,Satterthwaite(1864)就设法用 统计量去拟合,结果发现若取:
但 的计算结果为非整数时取最接近的整数,则 近似服从自由度为 的 分布。
当样本数 和 较大时,式中的 值也将随之而增大,我们知道,当 时,自由度为 的 分布就很接近于正态分布 ,故在 和 较大时,我们将认为
统计量服从 分布。
5.
两组方差的齐性检验
两个均值比较的 检验,其前提是两个样本所代表的正态总体具有相同的方差,因此在作
检验前,应该作两个方差是否齐性(一致)的检验,称为方差的齐性检验(test for homogeneity of
variance)。
设从正态总体 中获得的 个样本均值为 ,样本无偏方差为 ,从另一正态总体 中获得的 个样本均值为 ,样本无偏方差为
,且两个样本独立。假定 和 未知。现在要检验的原假设是 ,备择假设是 。
由于:
构造统计量:
如果原假设是 为真的情况下:
对于给定显著水平 ,检验统计量 的拒绝原假设 的区域为 或 。实际计算 值时常用:较大的样本方差/较小的样本方差,所以,拒绝区域只要看
。
不拒绝 时,认为两组方差齐性(homoscedasticity),这时 检验的前提条件满足,所以计算的 值及统计推断可靠;拒绝
时,认为两个总体方差不齐(heteroscedasticity),这时不能直接作
检验,应该采取适当的措施。如检查试验的本身,寻找原因给出可能的解释;或作变量置换;或用非参数统计分析方法;或用 检验。
当涉及到 个正态总体的方差相齐性检验时,分成两种情况:样本容量相等和样本容量不等。样本容量相等,假设为 ,常用的有两种检验方法:最大
检验(Hartley(哈特利)检验)和最大方差检验(Cochran(卡克伦)检验)。
最大 检验用的统计量为:
最大方差检验用的统计量为
在样本容量不相等的情况下,可以采用Bartlett检验。它是从广义似然比导出。
四、 简单的描述性统计proc means过程
SAS系统的BASE软件提供了一些计算基础统计量的过程,如means过程、summary过程、univariate过程、corr过程、freq过程和tabulate过程。这些过程可完成单变量或多变量的描述统计量计算。SAS的means过程用来对数据集中的数值变量计算简单的描述统计量。
1.
Means过程的语句格式
Means过程的主要控制语句如下:
proc means 输入数据集名 <选项列表> ;
|
var 变量列表
;
|
class 变量列表
;
|
by
变量列表 ;
|
freq 变量
;
|
weight 变量 ;
|
id
变量列表 ;
|
output
<out=输出数据集名> <统计量关键字=变量名 列表>
;
|
run ;
|
2.
proc means
语句中的<选项列表>
l
vardef=df/weight/wgt/n/wdf——在方差计算中规定除数
d.。
(1)
例
vardef=df
则
d=n-1 缺省值
(2)
vardef=n
则
d=n
(3)
vardef=weight/wgt
则d=
(4)
vardef=wdf
则d= -1
l
noprint——不输出任何描述统计量,仅为了创建新的数据集。
l
maxdec=数字——输出结果中小数部分的最大位数(0至8),缺省值为2。
l
fw=数字——规定打印时每个统计量的域宽,缺省值为2。
l
descending——规定输出数据集按_type_值下降的次序(缺省时为上升)。
l
order=freq/data/internal/formatted/——规定输出时
class变量按所指定方式排序。
l
alpha=数字——设置计算置信区间的置信水平 , 值在0与1之间。
l
统计量——可使用的关键字见表24.1所示。
表24.1
proc means语句中可用的统计量关键字
统计量名称
|
含义
|
统计量名称
|
含义
|
n
|
未丢失的观测个数
|
mode
|
众数,出现频数最高的数
|
nmiss
|
丢失的观测个数
|
sumwgt
|
权数和
|
mean
|
算术平均
|
max
|
最大值
|
stderr
|
均值的标准误差
|
min
|
最小值
|
sum
|
加权和
|
range
|
极差,max—min
|
std
|
标准偏差
|
median
|
中间值
|
var
|
方差
|
t
|
总体均值等于0的t统计量
|
cv
|
变异系数的百分数
|
prt
|
t分布的双尾p值
|
uss
|
加权平方和
|
clm
|
置信度上限和下限
|
css
|
关于均值偏差的加权平方和
|
lclm
|
置信度下限
|
skewness
|
对称性的度量——偏度
|
uclm
|
置信度上限
|
kurtosis
|
对尾部陡平的度量——峰度
|
|
|
3.
output语句中的选项
l
<out=输出数据集名>——输出数据集名。
l
统计量关键字=变量名列表——规定在输出数据集中要包含的统计量并规定这些统计量在新数据集中的变量名。
means过程对output语句的次数没有限制,可以使用几个output语句来创建内容不同的多个数据集。
4.
其他语句
l
var语句——规定要求计算简单描述性统计量的数值变量的次序。
l
by语句——按by语句定义的变量进行分组计算其相应的简单统计量,要求输入数据集已按by变量排序。
l
class语句——与by语句一样,可用class变量定义观测组,分别计算各组观测的描述统计量。输出格式与by不同且事先不需要按class变量排序。
l
freq语句——指定一个数值型的freq变量,它的值表示输入数据集中相应观测出现的频数。
l
weight语句——规定一个weight变量,它的值表示相应观测的权数。
l
id语句——在输出数据集中增加一个或几个附加变量,目的在于识别输出数据集里的观测。其值为生成这个观测的输入数据集中相应观测组里id变量具有的最大值。