SAS EM:Variable Selection node(变量选择节点)之二
2010-08-02 19:04阅读:
SAS EM:Variable Selection node(变量选择节点)
运用卡方方式进行变量选择,暨PROC dmsplit(dmsplit过程步)讲解
SAS EM(Enterprise Miner)企业数据挖掘节点功能详解及代码实现(第七弹)
本文未经作者允许,请勿转载
许多数据挖掘的数据集都含有数百个潜在的独立变量作为模型的输入变量,通过变量选择节点可以去除与目标不相关的变量来减少输入的变量。通常使用的方法是利用线性模式用选择的输入变量来预测目标变量,然后保留信息含量较大的输入变量,举例来说,使用最小平方(Least
Squares)、Logistic的回归方法或是其他分析的方法,在这里你可以先用使用 R-square(R2)或是
Chi-square(卡方)的方法来选择变量。
对于目标变量是分类型的模型,变量选择可以提供三种方式,其中包括 R2,卡方和两种方法的结合。目标变量是连续型的模型只要 R2
方法可以选择。在两种方法的结合中,变量只有同时被 R2
和卡方选择的时候才能作为输入进入该方法。实际上,两种方法结合的方法可以避免过度拟合情况,但是考虑到变量选择方法只在训练数据上进行,这种方法就显得有点不完善。结果会出现选出的变量可能不适合其他预留的数据。
在卡方模式下,用户可以指定三种额外选项:其中一个是用来决定把连续型变量分成多少个相同的箱;另一个是控制在运行二项分割时的迭代次数;最后一个是指定一个用来决定预测变量是否保留的阀值。默认设置下,阀值为
3.84,它对应于自由度为 1
的卡方分布中的显著水平α=0.05。阀值不是用来判断变量最终是否重要,而是用作判断的标尺。任何没有满足最小显著水平要求的变量都会被排除。
再删掉缺失值超过未百分比的变量,以及层级变量。
从数据挖掘定义上看,大多数数据挖掘应用要有大量的数据。但是随着数据量的增加,特定的检验统计指标就会越显著。换句话说,就是在给定样本量差别不显著,而在更大的样本量上就会变得显著。很多情况下,数据挖掘时通常取
α=0.05 可能会使过多的变量进入模型。尝试把 α
设置为不同的值可以使分析员精确的控制保留变量的个数。在变量还需进一步选择的情况下,可以考虑保留一些不太重要的变量直到进入下一个变量选择阶段。然而,如果这个节点用于选择进入最终模型的变量,那么就需要慎重考虑这些不太重要的变量的实际重要性了,评估它们是否要包含在最终的模型中。
至于卡方的其他设置,增加迭代次数可能获得较好的拟合,但是会消耗大量的处理时间,而减少迭代次数可能在一定程度上影响性能,但可以节约大量时间。在数据挖掘中,记录数以及变量数可能会极其大,因此减小循环数和/或者增大阀值,可以加快处理时间。同样,减少把分箱数控制在默认的
50 箱下也可能提高运算速度。
%let DM_SEED=12345;
data EMDATA.VIEW_6HE / view=EMDATA.VIEW_6HE;
set EMSAMPLE.HMEQ;
run;
data EMPROJ.SMP_VIGA(label='Sample of EMDATA.VIEW_4O9.');
set EMDATA.VIEW_6HE;
drop _sample_count_;
if _sample_count_ < 2000 then do;
if ranuni(12345) *(5960 + 1
- _N_ ) < = ( 2000 - _sample_count_) then do ;
_sample_count_ +
1;
output;
end;
end;
run;
quit;
proc dmdb data = EMDATA.VIEW_6HE
out = _null_
dmdbcat=
EMPROJ.dm_DGM00000
normlen=32
maxlevel=513;
class BAD(Desc) REASON(Asc) JOB(Asc);
var LOAN MORTDUE VALUE YOJ DEROG
DELINQ CLAGE NINQ CLNO
DEBTINC;
target BAD;
run;
* Create data view with dmdb name;
data EMDATA.dm_DGM00000 / view=EMDATA.dm_DGM00000;
set EMDATA.VIEW_6HE;
run;
* dmsplit过程步语法如下:;
PROC DMSPLIT <option(s)>;
FREQ variable;
TARGET variable;
VARIABLE variable-list;
WEIGHT variable;
这里,对其选项进行说明:
BINS:将变量分为多少个箱
CHISQ:最小协方差
OUTVARS:变量分割结果的输出
PASSES:最多分割的步数
PRINT | NOPRINT:是否打印
proc dmsplit data=EMDATA.VIEW_6HE
dmdbcat=EMPROJ.dm_DGM00000
bins=50
chisq=3.84 passes=6
outvars =
EMPROJ.OUTVMEFV;
var LOAN MORTDUE VALUE REASON JOB
YOJ DEROG DELINQ CLAGE
NINQ
CLNO DEBTINC;
target BAD;
run;
输出如下:
我们可以依照此结果,画出决策树。例如对于node
1,其parent为0,即它为母结点,它要分割的变量为DELINQ,其分割点为0.6;分割后得到node2和node3,因为其parent为1,然后我们再加node2和node3进行分割,就得到我们常见的决策树图了。
proc split dmdbcat=EMPROJ.dm_DGM00000
indmsplit
subtree=largest
outtree=EMPROJ.OUTTWA1U;
run;
对于SPLIT过程步,我们将在以后的章节进行讲解。
查看EMPROJ.OUTVMEFV数据集结果:
这里,_SUMMART的七个变量即为DMSPLIT过程步最终选择的变量
本文用到的SAS数据集为hmeq.sas7bdat,其下载地址:
http://ishare.iask.sina.com.cn/f/8641129.html
本系列全部数据下载地址:
http://iask.sina.com.cn/u/1564153724/ish