新浪博客

方差分析和回归分析

2010-12-23 21:01阅读:
第八章 方差分析和回归分析

教学目的和要求
1、熟悉单因子方差分析;
2、理解回归分析的基本思想,掌握一元线性回归模型。
教学重点和难点
重点:单因子方差分析和一元线性回归分析
难点:方差分析的运用及线性回归模型的建立和其显著性检验

§8.1 方差分析

一.单因子方差分析
1. 提出问题
设某因子有r个水平,即为 ,在每一水平下各作m次独立重复试验,若记第i个水平下第j次重复的实验结果为 ,所有试验的结果可列于表如下:

因子水平 试验数据 平均




合计

对这个试验要研究的问题是:r个水平 间有无显著差异。
2. 基本假定
(1)第i个水平下的数据 , , , 是来自正态总体 , ,的一个样本。
(2)r个方差相同,即
(3)诸数据 都相互独立
在这三个基本假定下,要检验的假设是

方差分析就是在方差相等的条件下,对若干个正态均值是否相等的假设检验

3. 平方和分解式

其中,记
注意几个概念:
l 称为总平方和,其自由度
l 称为组间平方和或因子A的平方和,其自由度
l 称为组内平方和或误差平方和,其自由度
4. 方差分析表

来源 平方和 自由度 均方和
因子
误差
总和


5. 判断
在 成立的条件下, ,对给定的显著水平 ,其拒绝域为 ,其中 可查表
若 ,则可以认为因子A显著,即诸正态均值间有显著差异;
若 ,则说明因子A不显著,即保留原假设 。
二.数据结构式及其参数估计
1. 数据结构式

其中 为总均值, 为第i个水平的效应,且 , 为试验误差,所有 可作为来自 的一个样本,在上述数据结构式下, 。要检验的假设检验可改写为
不全为0
2. 点估计
总均值 的估计为 ;
水平均值 的估计 ;
主效应 的估计
误差方差 的估计
3. 的置信区间
的 的置信区间是
4. 单因子试验的统计分析可以知道如下三个结果
1、 因子A是否显著
2、 试验误差方差 的估计
3、 诸水平均值 的点估计与区间估计(此项在因子A不显著时无需进行)

三.重复数不等情形下的方差分析
1. 获得数据
设因子A有r个水平 ,并且第r个水平 下重复进行 次试验,可得如下数据:


因子水平 重复数 试验数据 平均




合计

2. 基本假定、平方和分解、方差分析和判断准则都和前面一样,只是因子A的平方和 的计算公式略有不同:记 ,则

3. 数据结构式及参数估计式基本同前,需要注意下面两点:
(1)总均值 ;
(2)主效应约束条件为






§8.2 线性回归分析

一.一元情形
以前我们所研究的函数关系是完全确定的,但在实际问题中,常常会遇到两个变量之间具有密切关系却又不能用一个确定的数学式子表达,这种非确定性的关系称为相关关系。通过大量的试验和观察,用统计的方法找到试验结果的统计规律,这种方法称为回归分析。
一元回归分析是研究两个变量之间的相关关系的方法。如果两个变量之间的关系是线性的,这就是一元线性回归问题。一元线性回归问题主要分以下三个方面:
(1)通过对大量试验数据的分析、处理,得到两个变量之间的经验公式即一元线性回归方程。
(2)对经验公式的可信程度进行检验,判断经验公式是否可信。
(3)利用已建立的经验公式,进行预测和控制。
1.散点图与回归直线
在一元线性回归分析里,主要是考察随机变量y与普通变量x之间的关系。通过试验,可得到x、y的若干对实测数据,将这些数据在坐标系中描绘出来,所得到的图叫做散点图。
例1 在硝酸钠(NaNO3)的溶解度试验中,测得在不同温度x(℃)下,溶解于100份水中的硝酸钠份数y的数据如下:
xi
0
4
10
15
21
29
36
61
68
yi
66.7
71.0
76.3
80.6
85.7
92.9
99.4
113.6
125.1

给出散点图并试建x与y的经验公式。
将每对观察值(xi,yi)在直角坐标系中描出,得散点图如图1所示。从图1可看出,这些点虽不在一条直线上,但都在一条直线附近。于是,很自然会想到用一条直线来近似地表示x与y之间的关系,这条直线的方程就叫做y对x的一元线性回归方程。设这条直线的方程为 =a+bx
其中a、b叫做回归系数( 表示直线上y的值与实际值yi不同)。



下面是怎样确定a和b,使直线总的看来最靠近这几个点。
2.最小二乘法
在一次试验中,取得n对数据(xi,yi),其中yi是随机变量y对应于xi的观察值。我们所要求的直线应该是使所有︱yi- ︱之和最小的一条直线,其中 =a+bxi。由于绝对值在处理上比较麻烦,所以用平方和来代替,即要求a、b的值使Q= 最小。利用多元函数求极值的方法求回归系数 、 ,得

其中 = , = ,Lxx= =
Lyy= = ,Lxy= =
从而得到一元线性回归方程 = + x 。 其中 , 称为参数a、b的最小二乘估计,上述方法叫做最小二乘估计法

下面计算例1中y对x的一元线性回归方程。
这里n=9,(xi,yi)由例1给出,计算出 =26, =90.1444, Lxx= =10144-9×262=4060
Lyy= =76218.17-9×90.14442=3083.9822
Lxy= =24628.6-9×26×90.1444=3534.8
= =0.8706 = - =90.1444-0.8706×26=67.5078
故所求回归方程为 =67.5078+0.8706x
3. 回归方程的显著性检验
一般的情况下,给定 对数组,总能建立一个方程,但是这个方程是否有效,还需作检验,也就是说回归的显著不显著需要检验。若回归方程中 ,则回归方程变成 不再与 有关,因此检验的原假设与备择假设为:

为了寻求检验的统计量。我们把总体平方和分解,令

令 称为剩余平方和。 称为回归平方和
再来分析它们的分布, 若能求出 的自由度,则 的自由度也就知道了。 为了求 的自由度,只要求出 的数学期望就可。
由于


可知
因此,

又记为
在 成立的条件下,检验统计量
拒绝域为


4. 相关性检验
在使用由试验数据求出回归方程的最小二乘法之前,并没有判定两个变量之间是否具有线性的相关关系。因此,即使在平面上一些并不呈现线性关系的点之间,也照样可以求出一条回归直线,这显然毫无意义。因此,我们要用假设检验的方法进行相关关系的检验,其方法如下:
(1)假设H0:y与x存在密切的线性相关关系。
(2)计算相关系数 r=
(3)给定α,根据自由度n-2,查项关系数表,求出临界值λ。
(4)作出判断:如果︱r︱≥λ时,接受假设H0,即认为在显著性水平α下,y与x的线性相关关系较显著;如果︱r︱<λ时,则可认为在显著性水平α下,y与x的线性相关关系不显著,即拒绝假设H0

5. 预测与控制
在求出随机变量y与变量x的一元线性回归方程,并通过相关性检验后,便能用回归方程进行预测和控制。
(1)预测
点预测:对给定的x=x0,根据回归方程求得 = +bx0,作为y0的预测值,这种方法叫做点预测。
区间预测:区间预测就是对给定的x=x0,利用区间估计的方法求出y0的置信区间。
对给定的x=x0,由回归方程可计算一个回归值 = +b x0
设在x=x0的一次观察值为y0,记ε0= y0 εi=yi (i=1,2,…,n)
其中yi为对应xi的观察值, 为对应xi的回归值。
一般地(特别当n很大时)ε0与ε1,ε2,…,εn相互独立,而且服从同一正态分布
N(0,σ2)。
可以证明,统计量 = 是σ2的无偏估计量,其中 Q= = Lyy- Lxy。从而可近似地认为 ~N(0,1)
于是,我们得到y0的95%预测区间为 ( -1.96Sy, +1.96Sy),y0的99%预测区间为 ( -2.58Sy, +2.58Sy
上述预测区间在n较大且(x0- )较小时适用。
(2)控制
控制是预测的反问题,就是如何控制x值使y落在指定范围内,也就是给定y的变化范围求x的变化范围。
如果希望y在区间(y1,y2)内取值(y1与y2已知),则x的控制区间的两个端点x1、x2可由下述方程解出

当回归系数 >0时,控制区间为(x1,x2);当 <0时,控制区间为(x2,x1)。
应当指出下面两点:
(1)y的取值范围一般仅限于在已试验过的y的变化范围之内,不能任意外推;
(2)对y的指定区间(y1,y2)不能任意小,按上面的方程组计算时,y1、y2必须满足y2-y1>6Sy时,所求的x的控制区间才有意义。
二. 多元线性回归
实际应用中,很多情况要用到多元回归的方法才能更好地描述变量间的关系,因此有必要在本节对多元线性回归做一简单介绍,就方法的实质来说,处理多元的方法与处理一元的方法基本相同,只是多元线性回归的方法复杂些,计算量也大得多,一般都用计算机进行处理。
1、多元线性回归的模型。
设因变量y与自变量x1,x2,……,xk之间有关系式:

抽样得n组观测数据:(y1;x11,x21,……,xk1)
(y2;x12,x22,……xk2)
………………
(yn;x1n,x2n,……xkn)
其中xij是自变量xi的第j个观测值,yj是因变量y的第j个值,代入模型知数据结构式:

上述模型即称为k元正态线性回归模型,其中b0,b1,……,bk及σ2都是未知待估的参数,对k元线性模型,需讨论的问题与一元时相同。
2、参数估计
与一元时一样,采用最小二乘法估计回归系数 b0,b1,……,bk. 称使
达到最小的 为参数(b0,b1,……,bk)的最小二乘估计,利用微积分知识,最小二乘估计就是如下方程组的解:

其中


通常称该方程为正规方程组,其中前k个方程的系数矩阵记为 当L*可逆时,正规方程组(9.19)有解,便可得b0,b1,……bk的最小二乘估计 ,即

略去随机项得经验回归方程为:

类似一元可以证明 都是相应的bi(i=0,1,……,k)的无偏估计,且σ2’的无偏估计为:

3.回归方程的显著性检验
与一元的情形一样,上面的讨论是在yx1,……,xk之间呈现线性相关的前提下进行的,所求的经验方程是否有显著意义,还需对y与诸xi间是否存在线性相关关系作显著性假设检验,与一元类似,对 是否有显著意义,可通过检验H0:b1=b2=…=bk=0
为了找检验H0的检验统计量,也需将总偏差平方和Lyy作分解:
    
L=U+Qe 其中L=Lyy
这里 . 分别称QeU为残差平方和、回归平方和,可以证明:

利用柯赫伦定理可以证明:在H0成立下, 且UQe相互独立,所以有统计量

(这里记 QeQ,下同)

拒绝域为

通过F检验得到回归方程有显著意义,只能说明yx1,x2,……,xk之间存在显著的线性相关关系,衡量经验回归方程与观测值之间拟合好坏的常用统计量有复相关系数R及拟合优度系数R2。仿一元线性回归的情况,定义:


可以证明R就是观测值y1,……,yn与回归值的 的相关系数。实用中,为消除自由度的影响,又定义:

为修正的似合优度系数。

我的更多文章

下载客户端阅读体验更佳

APP专享