新浪博客

多元线性回归regress 与stepwisefit的区别

2016-06-21 09:54阅读:
两个函数的用途就不一样的。
  • b = regress(y,X) returns the least squares fit of y on X by solving the linear model
regress回归结果可以通过rcoplot(r,rint)检验数据是否存在异常点,异常点不多时可以手动剔除,但通常采用编程的方式进行剔除:
判断误差区两端,都大于0或都小于0的点要舍去
r就是残差值,也就是原点对应的值,是一列数据
而rint是残差值的区间,也就是误差条最小和最大值,是两列数据
mask=(rint(:,1).*rint(:,2)<0); %取得残差区间两端符号相反的逻辑矩阵(两端异号,符合要求)
ynew=y(mask); %假设y是原来做回归时用的y数据
Xnew=X(mask,:); %假设X是原来做回归时用的X数据
ynew和xnew就是剔除了坏点之后的数据


  • stepwise(X,y) displays an interactive tool for creating a regression model to predict the vector y, using a subset of the predictors given by columns of the matrix X. Initially, no predictors are included in the model, but you can click predictors to switch them into and out of the model.


多元线性回归方程中当涉及的自变量较多时,这些自变量可能并不是全部都对应变量有显著影响,同时有些自变量之间也可能相关
的。通常情况下,我们希望将有统计学意义的自变量引入回归方程,以使方差更加简单,容易解释;更重要的是把不显著的自变量排除后可以使残差的均方减小,有理由揭示其他自变量的作用。为此可以使用三种变量筛选方法:
1.向后法(backward selection): 先建立一个包含所有自变量回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能剔除为止。这种方法在自变量不是很多的情况下效果较佳。
2.向前法(forward selection): 方程由一个变量开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无具有统计意义的变量可以引入为止。这种方法的主要问题是,先进入方程的自变量有可能受到后进入方程变量的影响变的不显著。
3.逐步法(stepwise selection):在前述两种方法的基础上,进行双向筛选的一种方法。
即向前引入每一个新自变量之后都要重新对先前已选入的自变量进行检查,以评价其有无继续保留在方程中的价值。为此因引入和剔除交替进行,直到无具有统计学意义的新变量可以引入也无自变量可以剔除时为止。
筛选自变量通常采用偏回归平方和的F检验。
虽然,逐步回归法最后所得的最优回归方程与所给的临界值的选择有关,不能保证所挑选的回归方程在任何准则下都是最优的。但从长期实践应用来看,一般情况下逐步回归分析法所挑选的回归方程至少是较理想的,所以目前也被广泛使用。

我的更多文章

下载客户端阅读体验更佳

APP专享