如例题
2:
|

|

|

|

|
5.3.4
判断系数r2和估计标准误差Syx[理解与应用]
|
| 5.3.4.1 判定系数
r2 |
用最小平方法求得的回归直线方程
,确定了X和Y的具体变动关系, 但是实际值是不是紧密分布在其两侧?其紧密程度如何?这关系到回归模型的
应用值。因此,对回归直线的拟合优度,必须加以测定。判定系数 便是测定直线回归模型拟合优度的一个重要指标。
[根据教材224页图6-4进行说明]设有Y的实际值 , 到 的离差即 被回归直线分割成两部分:
和 。对所有实际值 可用它们的离差平方和表示:
|

|
即总偏差=回归偏差+剩余偏差 这说明在总偏差一定时,回归偏差越大,剩余偏差就越小;反之,回归偏差越小,剩余偏差就越大。由此可见,如果实际值紧密分布在回归直线两侧,剩余偏差很小,说明X和Y的依存关系很强。
当X与Y两变量依存关系很密切,乃至Y的变化完全由X引起,X与Y为确定的函数关系,剩余误差,也称未被解释的误差为零,。判定系数
便是以回归偏差占总偏差的比率来表示回归模型拟合优度的评价指标。 |
|
 |
|
|
 |
| 其计算公式为: |
(5.8) |
或 |
|
|
|
|
当X和Y不存在线性依存关系,即Y的变化与X无关,回归误差=0,
r2=0;当X和Y两变量依存关系很密切,乃至Y的变化完全由X引起,X和Y为确定的函数关系,剩余误差为=0,
。一般情况下,
r2是在0—1之间。实际工作中,通常采用以下简捷公式: |
(5.9)
|
| 仍用例题2计算: |

|
计算结果表明,生产成本的总误差中有85.16%可以由产量同生产成本的依存关系来解释,只有14.84%属于随机因素的影响,因此这条回归线是合适的。
从上述关于判定系数r2意义的解释中可以看出,判定系数r2同相关系数
r具有一致性。可以证明,一元线性回归的判定系数
r2的平方根就是简单线性相关的相关系数
r。上例
。这同前面用积矩相关系数公式计算的结果相同。积矩相关系数r是由协方差确定的;判定
r2
开平方后有正负两个根,符号的取舍应根据回归系数b的符号来定。
相关系数具有PRE 的性质: 减少误差比例
PRE = E1 – E2 / E1
式中:
E1:为不知X与Y有关系时,预测Y的总误差;E2为知道X与Y有线性相关时预测Y的总误差.所以,
PRE又称判定系数r2. |
| 5.3.4.2 估计标准误差
|
|
实际值与平均值的总误差中,回归误差与剩余误差是此消彼长的关系。因而回归误差从正面测定线性模型的拟合优度,剩余误差则从反面来判定线性模型的拟合优度。统计上定义剩余误差除以自由度n
– 2所得之商的平方根为估计标准误。:
|
|
 |
|
其公式为
|
(5.10) |
|
|
|
式中: 为估计标准误差,n-2是自由度。
|
|
在回归分析中,估计标准误差越小,表明实际值越紧靠估计值,回归模型拟合优度越好;反之,估计标准误差越大,则说明实际值对估计值越分散,回归模型拟合越差。 |
|
|