新浪博客

因子分析

2017-03-09 16:07阅读:
因子分析是通过研究变量之间的相关系数矩阵,把这些变量之间错综复杂的关系归结成少数几个综合因子,并据此对变量进行分类的一种统计分析方法。 由于归结出的因子个数少于原来的变量数目,但是他们又包含了原始变量的信息,所以这一分析过程也叫做降维。


因子分析的目的是什么?
1)探索结构:在变量之间存在高度相关性的时候,我们希望用较少的因子数目来概括其信息。
2)简化数据:把原始变量转化为因子后,使用因子得分进行分析,比如聚类分析、回归分析等。
3)综合评价:通过每个因子得分计算出综合得分,对分析对象进行综合评价。




需要了解的几个概念
1)因子载荷
因子载荷就是每个原始变量和每个因子之间的相关系数,反映了变量对因子的重要性。
通过因子载荷值的高低,我们能知道变量在对应因子中的重要性大小,这样能够帮助我们发现因子的实际意义,有利于因子的命名。
当有多个因子时,因子载荷将构成一个矩阵,称之为因子载荷矩阵。


2)变量共同度
变量共同度就是每个变量所包含的信息能够被因子所解释的程度,取值范围【0,1】,取值越大,表示该变量能被因子解释的程度越高。


3)因子旋转
ont >因子分析的结果需要每个因子都要有实际意义,但是有时候原始变量和因子之间的相关系数可能无法明确表达出因子的含义,为了使相关系数更加显著,可以对因子载荷矩阵进行旋转,是原始变量和因子之间的关系更加突出,从而对因子的解释更加清晰。


4)因子得分
因子得分可以用来评价每个个案在每个因子上的分值,该分值包含了原始变量的信息,可以用于代替原始变量进行其他统计分析。




原始变量的数值是可以直接得到的,但是因子得分只能通过原始变量和因子之间的关系计算得到。




因子分析的步骤
1)判断数据是否适合因子分析
2)构造因子变量
3)利用银子旋转方法使得因子更有实际意义
4)计算每个个案的因子得分




如何判断数据是否适合因子分析?
1)因子分析的变量要求为连续变量,分类变量不适合直接进行因子分析。
2)建议个案个数为变量个数的5倍以上,这只是参考值,不是绝对标准。
3)KMO检验统计量:小于0.5时不适合因子分析;大于0.5小于0.7时,尚可以接受因子分析;大于0.7小于0.8时,比较适合因子分析;大于0.8时非常适合因子分析。






因子分析
因子分析
因子分析
【描述】

勾选“KOM和巴特利特球形度检验”,目的是用于生成检验因子分析适合度的统计指标





因子分析
【提取】

方法选择“主成分”,这是最常用的提取因子的方法;
勾选“碎石图”,用于辅助判断因子个数。





因子分析
【旋转】

选择“最大方差法”,用于更好的解释因子所包含的意义。
最大方差法师最常用的,该方法能够使每个变量尽可能的在一个引子上有较高的载荷,在其余因子上载荷较低,从而方便对因子进行解释





因子分析
【得分】

勾选“保存为变量”,方法选择“回归”,用于保存计算的到的因子得分。





因子分析
【选项】

勾选系数显示格式中的“按大小排序”,是为了让系数大小有序,方便观察;勾选“排除小系数”,输入0.4,这样在结果中相关系数小于0.4的会被排除,不再显示,也是为了方便观察(因为我们是寻找相关系数高的)






分析结果解读:
因子分析
该结果主要用来检验数据是否适合因子分析,主要参考KMO统计量即可。

KMO统计量为0.627,大于0.5小于0.7,尚可以接受因子分析。





因子分析
这个结果是“变量共同度”,显示了原始变量能被提取的因子解释的程度。

本例中所有变量共同度都在60%以上,可以认为所提取的因子对各变量的解释能力是可以接受的。





因子分析
该图是“总方差解释”,显示了通过分析所提起的因子数量,以及所提取的因子对所有变量的累计方差贡献率。

累计方差贡献率大于60%,则说明因子对变量的解释能力尚可接受,达到80%,说明因子对变量的解释能力非常好。
本例根据“初始特征值”大于1的标准提取了两个因子,旋转之后累计方差贡献率达到72.367%,因子的解释能力较好。





因子分析
“碎石图”能辅助我们判断最佳因子个数,通常是选区取现中比较陡峭的位置所对应的因子个数。

本例前三个音字都在较陡峭的曲线上,所以提取2~~3个因子都可以对原始变量有较好的解释。




如何确定提取的因子个数?
1)初始特征值(总方差解释图)大于1的因子个数
2)累计方差贡献率(总方差解释图)达到一定水平的因子个数(如60%)
3)碎石图中处于陡峭曲线上的对应因子个数。
4)根据经验或研究,指定个数。



因子分析
这是旋转之前的因子载荷矩阵,难以对因子进行明确定义,可以忽略不看,直接看旋转后的因子载荷矩阵。




因子分析
“旋转后的成分矩阵”显示的是旋转后的因子载荷矩阵,这个结果能够凸显因子含义。



第一个因子:载荷较大的变量是“网店浏览量”、“论坛浏览量”、“线上广告费用”、“实体店访客数”,说明这四个变量与该因子的相关程度较高,其中前三个是反映的是线上数据,“实体店访客数”放映的虽然是线下数据,但是与第一个因子呈现反向关系。综上所述可以吧第一个因子命名为“线上商务”。


第二个因子:载荷较大的是“实体店铺货数”、“线下广告费用”、“地面推广引入量”,说明这个变量与因子的先关程度较高,并且反映的都是线下情况。综上所述可以命名为“线下商务”。




PS:系数是按我们设置的降序排列,并且有的为空,是因为我们设置的排除小于0.4的系数是因子结果更加清晰,可读。





因子分析
这个图没什么卵用




因子分析
新生成了两个变量就是每个商户在两个因子上的得分:第一个因子的得分,第二个因子的得分。





下面我们计算综合得分。
公式:第一个因子占的加权比重数*第一个因子得分+第二个因子占的加权比重数*第二个因子得分
本例中旋转后的方差解释图知:
因子1贡献率为38.968%,因子2贡献率为33.399,累积贡献率为72.367
所以因子1占的加权比重数=38.968/72.367
因子2所占的加权比重数=33.399/72.367
因子分析
计算出的综合得分如下如:
因子分析
对综合得分进行将序排列,就能知道哪些商户在O2O的运营方式下表现优异。
因子分析

我的更多文章

下载客户端阅读体验更佳

APP专享