数据分析实验报告（主成分分析与因子分析）

2010-12-22 20:50阅读：

http://blog.sina.cn/dpool/blog/u/1719647860

好多输出贴不上去，不好意思啊
浙江理工大学

实验报告

实验项目名称 主成分分析与因子分析
所属课程名称 数据分析
实验类型综合性实验
实验日期 2010年12月7日

班

级
学号
姓名
成绩

【实验目的及要求】
掌握主成分分析与因子分析的思想和具体步骤。掌握SPSS实现主成分分析与因子分析的具体操作。

【实验原理】
1.主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异，将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少，能解释大部分资料中的变异的几个新变量，即所谓主成分，并用以解释资料的综合性指标。由此可见，主成分分析实际上是一种降维方法。
2.因子分析研究相关矩阵或协方差矩阵的内部依赖关系，它将多个变量综合为少数几个因子，以再现原始变量与因子之间的相关关系。

【实验环境】
CPU P4；RAM 512M。
Windows XP；SPSS 15.0等。

【实验方案设计】
选取我国各地区居民的消费水平，利用SPSS软件分别对全体居民x1、农民居民x2、城镇居民x3的消费水平进行数据的主成分分析和因子分析：
（1）分别从样本协方差矩阵S和样本相关矩阵R出发，求x1,x2,x3的样本主成分y1,y2,计算各样本主成分的贡献率。
（2）分别从样本协方差矩阵S和样本相关矩阵R出发，将第一样本主成分y1从小到大排序，并给以分析。
（3）取公共因子为1，对x1,x2,x3进行因子分析，并进行解释。对公共因子F1得分从小到大进行排序，并进行分析解释。
（4）取公共因子为2，采用方差最大正交旋转进行因子分析，对公共因子F1得分从小到大进行排序。再对公共因子F1，F2进行解释。

【实验过程】（实验步骤、记录、数据、分析）
（1）
a.从样本相关矩阵出发求解
打开SPSS软件，输入2006年各地区居民消费水平的相关数据后，激活Analyze菜单选Data Reduction的Factor...命令项，弹出Factor Analysis对话框，将全体居民、农村居民、城镇居民三个拉入变量框；点击Descriptives...钮，弹出Factor Analysis:Descriptives对话框，在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差，在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵，并选KMO and Bartlett’s test of sphericity项，要求对相关系数矩阵进行统计学检验；点击Continue钮返回Factor Analysis对话框；点击Extraction...钮，弹出Factor Analysis:Extraction对话框，选用Principal components主成分分析法,在extract栏输入2，表示提取2个因子，其他都默认；点击Scores...钮，弹出弹出Factor Analysis:Scores对话框，选择 Regression（回归因子法）。

相关系数矩阵表，从表中可以看出这3个变量具有高相关性。

KMO检验和Bartlett球形检验结果表，KMO检验结果为0.765>o.5,很接近0.9，适合作因子分析；Bartlett球形检验的Sig.取值0.000，表示拒绝原假设，认为各变量之间不是独立的。

表1
由表1可得：
第一样本主成分Y1=0.338x1+0.336x2+0.336x3
第二样本主成分Y2=-0.240x1-3.486x2+3.730x3
由表2可得：
第一主成分y1的特征根为2.945 贡献率为98.175%
第二主成分y2的特征根为0.038 贡献率为1.276%

表2
b.从样本协方差矩阵出发求解
其他操作同上，只需做一项改动：点击Extraction...钮，弹出Factor Analysis:Extraction对话框，在analyze框中选择协方差矩阵，其他都不变。

表3
由表3可得：
第一样本主成分Y1=0.506x1+0.108x2+0.393x3
第二样本主成分Y2=3.754x1+0.929x2-4.691x3
由表4可得：
第一主成分y1的特征根为2.939 贡献率为97.964%
第二主成分y2的特征根为0.032 则计算得其贡献率为1.070%

表4
（2）
a.从样本相关矩阵出发，将第一样本主成分为y1从小到大排序：

地区	FAC1_1	排序
西藏	-0.84639	1
贵州	-0.71736	2
甘肃	-0.67487	3
青海	-0.66237	4
新疆	-0.64986	5
云南	-0.56665	6
广西	-0.54882	7
安徽	-0.54166	8
陕西	-0.52145	9
黑龙江	-0.51335	10
江西	-0.49689	11
山西	-0.49396	12
四川	-0.47825	13
海南	-0.47723	14
宁夏	-0.41157	15
河南	-0.39304	16
重庆	-0.37213	17
河北	-0.34443	18
吉林	-0.3153	19
湖北	-0.27127	20
内蒙古	-0.25115	21
湖南	-0.18795	22
辽宁	-0.00647	23
山东	0.19315	24
福建	0.44966	25
江苏	0.58771	26
天津	0.85367	27
广东	0.99985	28
浙江	1.5056	29
北京	2.48776	30
上海	3.66503	31

表5

b.从样本协方差矩阵出发，将第一样本主成分为y1从小到大排序：

地区	FAC1_2	排序
西藏	-0.85901	1
贵州	-0.66066	2
青海	-0.65352	3
甘肃	-0.64165	4
新疆	-0.6195	5
广西	-0.57304	6
江西	-0.56766	7
安徽	-0.55561	8
云南	-0.5483	9
海南	-0.52601	10
黑龙江	-0.51952	11
陕西	-0.50697	12
四川	-0.49945	13
山西	-0.48874	14
河南	-0.41059	15
宁夏	-0.38309	16
河北	-0.35406	17
吉林	-0.33658	18
重庆	-0.31332	19
湖北	-0.26855	20
内蒙古	-0.23498	21
湖南	-0.20936	22
辽宁	-0.01683	23
山东	0.20747	24
福建	0.41296	25
江苏	0.49049	26
天津	0.88808	27
广东	1.15522	28
浙江	1.42992	29
北京	2.52678	30
上海	3.63606	31

表6
从上述两个表中可以看出，没有特别大的差别。
（3）
打开SPSS软件，输入2006年各地区居民消费水平的相关数据后，激活Analyze菜单选Data Reduction的Factor...命令项，弹出Factor Analysis对话框，将全体居民、农村居民、城镇居民三个拉入变量框；点击Descriptives...钮，弹出Factor Analysis:Descriptives对话框，在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差，在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵；点击Continue钮返回Factor Analysis对话框；点击Extraction...钮，弹出Factor Analysis:Extraction对话框，选用Principal components主成分分析法,其他都默认；点击Scores...钮，弹出弹出Factor Analysis:Scores对话框，选择 Regression（回归因子法）。

表7
由表7可得：
第一主成分特征根为2.945，方差贡献率为98.175%，根据之前设置的提取因子的条件—特征值大于1，本例只选出1个因子F1。

表8
由表8可得：F1=0.338x1+0.336x2+0.336x3
下面对F1得分从小到大进行排序：

地区	FAC1_3	排序
西藏	-0.84639	1
贵州	-0.71736	2
甘肃	-0.67487	3
青海	-0.66237	4
新疆	-0.64986	5
云南	-0.56665	6
广西	-0.54882	7
安徽	-0.54166	8
陕西	-0.52145	9
黑龙江	-0.51335	10
江西	-0.49689	11
山西	-0.49396	12
四川	-0.47825	13
海南	-0.47723	14
宁夏	-0.41157	15
河南	-0.39304	16
重庆	-0.37213	17
河北	-0.34443	18
吉林	-0.3153	19
湖北	-0.27127	20
内蒙古	-0.25115	21
湖南	-0.18795	22
辽宁	-0.00647	23
山东	0.19315	24
福建	0.44966	25
江苏	0.58771	26
天津	0.85367	27
广东	0.99985	28
浙江	1.5056	29
北京	2.48776	30
上海	3.66503	31

表9
由表9可以看出：西藏的消费水平最低，上海的消费水平最高。由于第一主成份y1的贡献率高达98.175%，故若用y1的得分值对各地区进行排序，能从总体上反映地区之间的效益差别。从上述排序可以推知，y 1的值越大，则该地区的消费水平越高。
（4）
打开SPSS软件，输入2006年各地区居民消费水平的相关数据后，激活Analyze菜单选Data Reduction的Factor...命令项，弹出Factor Analysis对话框，将全体居民、农村居民、城镇居民三个拉入变量框；点击Descriptives...钮，弹出Factor Analysis:Descriptives对话框，在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差，在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵，并选KMO and Bartlett’s test of sphericity项，要求对相关系数矩阵进行统计学检验；点击Continue钮返回Factor Analysis对话框；点击Extraction...钮，弹出Factor Analysis:Extraction对话框，选用Principal components主成分分析法,在extract栏输入2，表示提取2个因子，其他都默认；点击Scores...钮，弹出弹出Factor Analysis:Scores对话框，选择 Regression（回归因子法）; 点击Rotation...钮，弹出弹出Factor Analysis: Rotation对话框，选择Varimax(方差最大正交旋转法)。

表10
由表10可得：F1=0.409x1+2.687x2-2.380x3 说明x2受该因子的影响较大

表11
由表11可得：F1=0.409x1+2.687x2 -2.380x3
F2=0.066x1-2.246x2+2.892x3
由于因子得分的协方差矩阵为单位矩阵，说明提取的2个公因子是不相关的。
由表12可以看出：贵州的消费水平最低，上海的消费水平最高。由于第一主成份y1的贡献率高达98.175%，故若用y1的得分值对各地区进行排序，能从总体上反映地区之间的效益差别。从上述排序可以推知，y 1的值越大，则该地区的消费水平越高。

地区	FAC1_4	排序4
贵州	-1.74324	1
广东	-1.58204	2
陕西	-1.21589	3
甘肃	-1.12324	4
云南	-.97717	5
重庆	-.85991	6
西藏	-.69837	7
新疆	-.69530	8
宁夏	-.53141	9
山东	-.41502	10
河南	-.37029	11
河北	-.32915	12
青海	-.23594	13
湖北	-.13373	14
内蒙古	-.13087	15
四川	-.11936	16
山西	-.11079	17
湖南	-.08522	18
安徽	-.06388	19
广西	.01315	20
福建	.41950	21
江西	.43831	22
黑龙江	.52919	23
海南	.64932	24
吉林	.68344	25
辽宁	.71354	26
天津	.83254	27
浙江	.86861	28
江苏	1.50874	29
北京	1.63926	30
上海	3.12521	31

表12

【小结】
通过本次实验，了解SPSS软件的运行管理方式；熟悉各主要操作模块，窗口及其功能，相关的系统参数设置等。基本掌握了应用SPSS软件Analyze菜单中的Data Reduction模块对数据进行主成分分析和因子分析，但是在操作过程和文字分析上还是有些生疏，有待进一步的熟练。

【指导教师评语及成绩】

指导教师：
批阅日期：

举报/Report

我的更多文章

下载客户端阅读体验更佳

APP专享

新浪博客

数据分析实验报告（主成分分析与因子分析）

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼

数据分析实验报告（主成分分析与因子分析 ）

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼

数据分析实验报告（主成分分析与因子分析）