方差分析和回归分析

2010-12-23 21:01阅读：

http://blog.sina.cn/dpool/blog/u/1644599381

第八章方差分析和回归分析

教学目的和要求：
1、熟悉单因子方差分析；
2、理解回归分析的基本思想，掌握一元线性回归模型。
教学重点和难点
重点：单因子方差分析和一元线性回归分析
难点：方差分析的运用及线性回归模型的建立和其显著性检验

§8.1 方差分析

一.单因子方差分析
1. 提出问题
设某因子有r个水平，即为，在每一水平下各作m次独立重复试验，若记第i个水平下第j次重复的实验结果为，所有试验的结果可列于表如下：

因子水平试验数据和平均

合计

对这个试验要研究的问题是：r个水平间有无显著差异。
2. 基本假定
（1）第i个水平下的数据，，，是来自正态总体，，的一个样本。
（2）r个方差相同，即
（3）诸数据都相互独立
在这三个基本假定下，要检验的假设是

方差分析就是在方差相等的条件下，对若干个正态均值是否相等的假设检验。

3. 平方和分解式
，
其中，记
注意几个概念：
l 称为总平方和，其自由度
l 称为组间平方和或因子A的平方和，其自由度
l 称为组内平方和或误差平方和，其自由度
4. 方差分析表

来源平方和自由度均方和比

因子
误差

总和

5. 判断
在成立的条件下，，对给定的显著水平，其拒绝域为，其中可查表
若，则可以认为因子A显著，即诸正态均值间有显著差异；
若，则说明因子A不显著，即保留原假设。
二．数据结构式及其参数估计
1. 数据结构式

其中为总均值，为第i个水平的效应，且，为试验误差，所有可作为来自的一个样本，在上述数据结构式下，。要检验的假设检验可改写为
不全为0
2. 点估计
总均值的估计为；
水平均值的估计；
主效应的估计
误差方差的估计
3. 的置信区间
的的置信区间是
4. 单因子试验的统计分析可以知道如下三个结果
1、因子A是否显著
2、试验误差方差的估计
3、诸水平均值的点估计与区间估计（此项在因子A不显著时无需进行）

三.重复数不等情形下的方差分析
1. 获得数据
设因子A有r个水平，并且第r个水平下重复进行次试验，可得如下数据：

因子水平重复数试验数据和平均

合计

2. 基本假定、平方和分解、方差分析和判断准则都和前面一样，只是因子A的平方和的计算公式略有不同：记，则

3. 数据结构式及参数估计式基本同前，需要注意下面两点：
（1）总均值；
（2）主效应约束条件为

§8.2 线性回归分析

一.一元情形
以前我们所研究的函数关系是完全确定的，但在实际问题中，常常会遇到两个变量之间具有密切关系却又不能用一个确定的数学式子表达，这种非确定性的关系称为相关关系。通过大量的试验和观察，用统计的方法找到试验结果的统计规律，这种方法称为回归分析。
一元回归分析是研究两个变量之间的相关关系的方法。如果两个变量之间的关系是线性的，这就是一元线性回归问题。一元线性回归问题主要分以下三个方面：
（1）通过对大量试验数据的分析、处理，得到两个变量之间的经验公式即一元线性回归方程。
（2）对经验公式的可信程度进行检验，判断经验公式是否可信。
（3）利用已建立的经验公式，进行预测和控制。
1．散点图与回归直线
在一元线性回归分析里，主要是考察随机变量y与普通变量x之间的关系。通过试验，可得到x、y的若干对实测数据，将这些数据在坐标系中描绘出来，所得到的图叫做散点图。
例1 在硝酸钠（NaNO₃）的溶解度试验中，测得在不同温度x（℃）下，溶解于100份水中的硝酸钠份数y的数据如下：

x_i	0	4	10	15	21	29	36	61	68
y_i	66．7	71．0	76．3	80．6	85．7	92．9	99．4	113．6	125．1

给出散点图并试建x与y的经验公式。
解将每对观察值（x_i，y_i）在直角坐标系中描出，得散点图如图1所示。从图1可看出，这些点虽不在一条直线上，但都在一条直线附近。于是，很自然会想到用一条直线来近似地表示x与y之间的关系，这条直线的方程就叫做y对x的一元线性回归方程。设这条直线的方程为 =a+bx
其中a、b叫做回归系数（表示直线上y的值与实际值y_i不同）。

下面是怎样确定a和b，使直线总的看来最靠近这几个点。
2．最小二乘法
在一次试验中，取得n对数据（x_i，y_i），其中y_i是随机变量y对应于x_i的观察值。我们所要求的直线应该是使所有︱y_i－︱之和最小的一条直线，其中 =a+bx_i。由于绝对值在处理上比较麻烦，所以用平方和来代替，即要求a、b的值使Q= 最小。利用多元函数求极值的方法求回归系数、，得

其中 = ， = ，L_xx= =
L_yy= = ，L_xy= =
从而得到一元线性回归方程 = + x 。其中，称为参数a、b的最小二乘估计，上述方法叫做最小二乘估计法。

下面计算例1中y对x的一元线性回归方程。
这里n=9，（x_i，y_i）由例1给出，计算出 =26， =90.1444, L_xx= =10144－9×26²=4060
L_yy= =76218.17－9×90.1444²=3083.9822
L_xy= =24628.6－9×26×90.1444=3534.8
= =0.8706 = － =90.1444－0.8706×26=67.5078
故所求回归方程为 =67.5078+0.8706x
3. 回归方程的显著性检验
一般的情况下，给定对数组，总能建立一个方程，但是这个方程是否有效，还需作检验，也就是说回归的显著不显著需要检验。若回归方程中，则回归方程变成不再与有关，因此检验的原假设与备择假设为：
，
为了寻求检验的统计量。我们把总体平方和分解，令

令称为剩余平方和。称为回归平方和
再来分析它们的分布，若能求出的自由度，则的自由度也就知道了。为了求的自由度，只要求出的数学期望就可。
由于

可知
因此，

又记为
在成立的条件下，检验统计量
拒绝域为

4. 相关性检验
在使用由试验数据求出回归方程的最小二乘法之前，并没有判定两个变量之间是否具有线性的相关关系。因此，即使在平面上一些并不呈现线性关系的点之间，也照样可以求出一条回归直线，这显然毫无意义。因此，我们要用假设检验的方法进行相关关系的检验，其方法如下：
（1）假设H₀：y与x存在密切的线性相关关系。
（2）计算相关系数 r=
（3）给定α，根据自由度n－2，查项关系数表，求出临界值λ。
（4）作出判断：如果︱r︱≥λ时，接受假设H₀，即认为在显著性水平α下，y与x的线性相关关系较显著；如果︱r︱＜λ时，则可认为在显著性水平α下，y与x的线性相关关系不显著，即拒绝假设H₀。

5. 预测与控制
在求出随机变量y与变量x的一元线性回归方程，并通过相关性检验后，便能用回归方程进行预测和控制。
（1）预测
点预测：对给定的x=x₀，根据回归方程求得 = +bx₀，作为y₀的预测值，这种方法叫做点预测。
区间预测：区间预测就是对给定的x=x₀，利用区间估计的方法求出y₀的置信区间。
对给定的x=x₀，由回归方程可计算一个回归值 = +b x₀
设在x=x₀的一次观察值为y₀，记ε₀= y₀— ε_i=y_i— （i=1,2,…,n)
其中y_i为对应x_i的观察值，为对应x_i的回归值。
一般地（特别当n很大时）ε₀与ε₁，ε₂，…，ε_n相互独立，而且服从同一正态分布
N（0，σ²）。
可以证明，统计量 = 是σ²的无偏估计量，其中 Q= = L_yy－ L_xy。从而可近似地认为～N（0，1）
于是，我们得到y₀的95%预测区间为（－1.96S_y，＋1.96S_y），y₀的99%预测区间为（－2.58S_y，＋2.58S_y）
上述预测区间在n较大且（x₀－）较小时适用。
（2）控制
控制是预测的反问题，就是如何控制x值使y落在指定范围内，也就是给定y的变化范围求x的变化范围。
如果希望y在区间（y₁，y₂）内取值（y₁与y₂已知），则x的控制区间的两个端点x₁、x₂可由下述方程解出

当回归系数＞0时，控制区间为（x₁，x₂）；当＜0时，控制区间为（x₂，x₁）。
应当指出下面两点：
（1）y的取值范围一般仅限于在已试验过的y的变化范围之内，不能任意外推；
（2）对y的指定区间（y₁，y₂）不能任意小，按上面的方程组计算时，y₁、y₂必须满足y₂－y₁＞6S_y时，所求的x的控制区间才有意义。
二. 多元线性回归
实际应用中，很多情况要用到多元回归的方法才能更好地描述变量间的关系，因此有必要在本节对多元线性回归做一简单介绍，就方法的实质来说，处理多元的方法与处理一元的方法基本相同，只是多元线性回归的方法复杂些，计算量也大得多，一般都用计算机进行处理。
1、多元线性回归的模型。
设因变量y与自变量x₁,x₂,……,x_k之间有关系式：

抽样得n组观测数据：(y₁；x₁₁,x_21,……,x_k1)
(y₂；x₁₂,x₂₂,……x_k2)
………………
(y_n；x_1n,x_2n,……x_kn)
其中x_ij是自变量x_i的第j个观测值，y_j是因变量y的第j个值，代入模型知数据结构式：

上述模型即称为k元正态线性回归模型，其中b₀,b₁,……,b_k及σ²都是未知待估的参数，对k元线性模型，需讨论的问题与一元时相同。
2、参数估计
与一元时一样，采用最小二乘法估计回归系数 b₀,b₁,……,b_k. 称使
达到最小的为参数（b₀,b₁,……,b_k）的最小二乘估计，利用微积分知识，最小二乘估计就是如下方程组的解：

其中

通常称该方程为正规方程组，其中前k个方程的系数矩阵记为当L^*可逆时，正规方程组(9.19)有解，便可得b₀,b₁,……b_k的最小二乘估计，即

略去随机项得经验回归方程为：

类似一元可以证明都是相应的b_i(i=0，1，……，k)的无偏估计，且σ^2’的无偏估计为：

3.回归方程的显著性检验
与一元的情形一样，上面的讨论是在y与x₁，……，x_k之间呈现线性相关的前提下进行的，所求的经验方程是否有显著意义，还需对y与诸x_i间是否存在线性相关关系作显著性假设检验，与一元类似，对是否有显著意义，可通过检验H₀:b₁=b₂=…=b_k=0
为了找检验H₀的检验统计量，也需将总偏差平方和L_yy作分解：
　　　　
即 L=U+Q_e 其中L=L_yy，
这里 . 分别称Q_e_，U为残差平方和、回归平方和，可以证明：

利用柯赫伦定理可以证明：在H₀成立下，且U与Q_e相互独立，所以有统计量

(这里记 Q_e为Q,下同)

拒绝域为

通过F检验得到回归方程有显著意义，只能说明y与x₁，x₂，……，x_k之间存在显著的线性相关关系，衡量经验回归方程与观测值之间拟合好坏的常用统计量有复相关系数R及拟合优度系数R²。仿一元线性回归的情况，定义：

可以证明R就是观测值y₁,……,y_n与回归值的的相关系数。实用中，为消除自由度的影响，又定义：

为修正的似合优度系数。

举报/Report

我的更多文章

下载客户端阅读体验更佳

APP专享

新浪博客

方差分析和回归分析

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼