新浪博客

数据分析实验报告(主成分分析与因子分析 )

2010-12-22 20:50阅读:

好多输出 贴不上去,不好意思啊
浙江理工大学
























实验项目名称 主成分分析与因子分析
所属课程名称 数据分析
综合性实验
实 验 日 期 2010127







【实验目的及要求】
掌握主成分分析与因子分析的思想和具体步骤。掌握SPSS实现主成分分析与因子分析的具体操作。

【实验原理】
1.主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。
2.因子分析研究相关矩阵或协方差矩阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。

【实验环境】
CPU P4;RAM 512M。
Windows XP;SPSS 15.0等。

【实验方案设计】
选取我国各地区居民的消费水平,利用SPSS软件分别对全体居民x1、农民居民x2、城镇居民x3的消费水平进行数据的主成分分析和因子分析:
(1)分别从样本协方差矩阵S和样本相关矩阵R出发,求x1,x2,x3的样本主成分y1,y2,计算各样本主成分的贡献率。
(2)分别从样本协方差矩阵S和样本相关矩阵R出发,将第一样本主成分y1从小到大排序,并给以分析。
(3)取公共因子为1,对x1,x2,x3进行因子分析,并进行解释。对公共因子F1得分从小到大进行排序,并进行分析解释。
(4)取公共因子为2,采用方差最大正交旋转进行因子分析,对公共因子F1得分从小到大进行排序。再对公共因子F1,F2进行解释。

【实验过程】(实验步骤、记录、数据、分析)
(1)
a.从样本相关矩阵出发求解
打开SPSS软件,输入2006年各地区居民消费水平的相关数据后,激活Analyze菜单选Data Reduction的Factor...命令项,弹出Factor Analysis对话框,将全体居民、农村居民、城镇居民三个拉入变量框;点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框,在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵,并选KMO and Bartlett’s test of sphericity项,要求对相关系数矩阵进行统计学检验;点击Continue钮返回Factor Analysis对话框;点击Extraction...钮,弹出Factor Analysis:Extraction对话框,选用Principal components主成分分析法,在extract栏输入2,表示提取2个因子,其他都默认;点击Scores...钮,弹出弹出Factor Analysis:Scores对话框,选择 Regression(回归因子法)。


相关系数矩阵表,从表中可以看出这3个变量具有高相关性。


KMO检验和Bartlett球形检验结果表,KMO检验结果为0.765>o.5,很接近0.9,适合作因子分析;Bartlett球形检验的Sig.取值0.000,表示拒绝原假设,认为各变量之间不是独立的。









表1
由表1可得:
第一样本主成分Y1=0.338x1+0.336x2+0.336x3
第二样本主成分Y2=-0.240x1-3.486x2+3.730x3
由表2可得:
第一主成分y1的特征根为2.945 贡献率为98.175%
第二主成分y2的特征根为0.038 贡献率为1.276%


表2
b.从样本协方差矩阵出发求解
其他操作同上,只需做一项改动:点击Extraction...钮,弹出Factor Analysis:Extraction对话框,在analyze框中选择协方差矩阵,其他都不变。


表3
由表3可得:
第一样本主成分Y1=0.506x1+0.108x2+0.393x3
第二样本主成分Y2=3.754x1+0.929x2-4.691x3
由表4可得:
第一主成分y1的特征根为2.939 贡献率为97.964%
第二主成分y2的特征根为0.032 则计算得其贡献率为1.070%


表4
(2)
a.从样本相关矩阵出发,将第一样本主成分为y1从小到大排序:
地区
FAC1_1
排序
西藏
-0.84639
1
贵州
-0.71736
2
甘肃
-0.67487
3
青海
-0.66237
4
新疆
-0.64986
5
云南
-0.56665
6
广西
-0.54882
7
安徽
-0.54166
8
陕西
-0.52145
9
黑龙江
-0.51335
10
江西
-0.49689
11
山西
-0.49396
12
四川
-0.47825
13
海南
-0.47723
14
宁夏
-0.41157
15
河南
-0.39304
16
重庆
-0.37213
17
河北
-0.34443
18
吉林
-0.3153
19
湖北
-0.27127
20
内蒙古
-0.25115
21
湖南
-0.18795
22
辽宁
-0.00647
23
山东
0.19315
24
福建
0.44966
25
江苏
0.58771
26
天津
0.85367
27
广东
0.99985
28
浙江
1.5056
29
北京
2.48776
30
上海
3.66503
31

表5

b.从样本协方差矩阵出发,将第一样本主成分为y1从小到大排序:
地区
FAC1_2
排序
西藏
-0.85901
1
贵州
-0.66066
2
青海
-0.65352
3
甘肃
-0.64165
4
新疆
-0.6195
5
广西
-0.57304
6
江西
-0.56766
7
安徽
-0.55561
8
云南
-0.5483
9
海南
-0.52601
10
黑龙江
-0.51952
11
陕西
-0.50697
12
四川
-0.49945
13
山西
-0.48874
14
河南
-0.41059
15
宁夏
-0.38309
16
河北
-0.35406
17
吉林
-0.33658
18
重庆
-0.31332
19
湖北
-0.26855
20
内蒙古
-0.23498
21
湖南
-0.20936
22
辽宁
-0.01683
23
山东
0.20747
24
福建
0.41296
25
江苏
0.49049
26
天津
0.88808
27
广东
1.15522
28
浙江
1.42992
29
北京
2.52678
30
上海
3.63606
31

表6
从上述两个表中可以看出,没有特别大的差别。
(3)
打开SPSS软件,输入2006年各地区居民消费水平的相关数据后,激活Analyze菜单选Data Reduction的Factor...命令项,弹出Factor Analysis对话框,将全体居民、农村居民、城镇居民三个拉入变量框;点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框,在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵;点击Continue钮返回Factor Analysis对话框;点击Extraction...钮,弹出Factor Analysis:Extraction对话框,选用Principal components主成分分析法,其他都默认;点击Scores...钮,弹出弹出Factor Analysis:Scores对话框,选择 Regression(回归因子法)。


表7
由表7可得:
第一主成分特征根为2.945,方差贡献率为98.175%,根据之前设置的提取因子的条件—特征值大于1,本例只选出1个因子F1。


表8
由表8可得:F1=0.338x1+0.336x2+0.336x3
下面对F1得分从小到大进行排序:
地区
FAC1_3
排序
西藏
-0.84639
1
贵州
-0.71736
2
甘肃
-0.67487
3
青海
-0.66237
4
新疆
-0.64986
5
云南
-0.56665
6
广西
-0.54882
7
安徽
-0.54166
8
陕西
-0.52145
9
黑龙江
-0.51335
10
江西
-0.49689
11
山西
-0.49396
12
四川
-0.47825
13
海南
-0.47723
14
宁夏
-0.41157
15
河南
-0.39304
16
重庆
-0.37213
17
河北
-0.34443
18
吉林
-0.3153
19
湖北
-0.27127
20
内蒙古
-0.25115
21
湖南
-0.18795
22
辽宁
-0.00647
23
山东
0.19315
24
福建
0.44966
25
江苏
0.58771
26
天津
0.85367
27
广东
0.99985
28
浙江
1.5056
29
北京
2.48776
30
上海
3.66503
31


表9
由表9可以看出:西藏的消费水平最低,上海的消费水平最高。由于第一主成份y1的贡献率高达98.175%,故若用y1的得分值对各地区进行排序,能从总体上反映地区之间的效益差别。从上述排序可以推知,y 1的值越大,则该地区的消费水平越高。
(4)
打开SPSS软件,输入2006年各地区居民消费水平的相关数据后,激活Analyze菜单选Data Reduction的Factor...命令项,弹出Factor Analysis对话框,将全体居民、农村居民、城镇居民三个拉入变量框;点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框,在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵,并选KMO and Bartlett’s test of sphericity项,要求对相关系数矩阵进行统计学检验;点击Continue钮返回Factor Analysis对话框;点击Extraction...钮,弹出Factor Analysis:Extraction对话框,选用Principal components主成分分析法,在extract栏输入2,表示提取2个因子,其他都默认;点击Scores...钮,弹出弹出Factor Analysis:Scores对话框,选择 Regression(回归因子法); 点击Rotation...钮,弹出弹出Factor Analysis: Rotation对话框,选择Varimax(方差最大正交旋转法)。


表10
由表10可得:F1=0.409x1+2.687x2-2.380x3 说明x2受该因子的影响较大

表11
由表11可得:F1=0.409x1+2.687x2 -2.380x3
F2=0.066x1-2.246x2+2.892x3
由于因子得分的协方差矩阵为单位矩阵,说明提取的2个公因子是不相关的。
由表12可以看出:贵州的消费水平最低,上海的消费水平最高。由于第一主成份y1的贡献率高达98.175%,故若用y1的得分值对各地区进行排序,能从总体上反映地区之间的效益差别。从上述排序可以推知,y 1的值越大,则该地区的消费水平越高。
地区
FAC1_4
排序4
贵州
-1.74324
1
广东
-1.58204
2
陕西
-1.21589
3
甘肃
-1.12324
4
云南
-.97717
5
重庆
-.85991
6
西藏
-.69837
7
新疆
-.69530
8
宁夏
-.53141
9
山东
-.41502
10
河南
-.37029
11
河北
-.32915
12
青海
-.23594
13
湖北
-.13373
14
内蒙古
-.13087
15
四川
-.11936
16
山西
-.11079
17
湖南
-.08522
18
安徽
-.06388
19
广西
.01315
20
福建
.41950
21
江西
.43831
22
黑龙江
.52919
23
海南
.64932
24
吉林
.68344
25
辽宁
.71354
26
天津
.83254
27
浙江
.86861
28
江苏
1.50874
29
北京
1.63926
30
上海
3.12521
31

表12

【小结】
通过本次实验,了解SPSS软件的运行管理方式;熟悉各主要操作模块,窗口及其功能,相关的系统参数设置等。基本掌握了应用SPSS软件Analyze菜单中的Data Reduction模块对数据进行主成分分析和因子分析,但是在操作过程和文字分析上还是有些生疏,有待进一步的熟练。

【指导教师评语及成绩】






指导教师:
批阅日期:

我的更多文章

下载客户端阅读体验更佳

APP专享