[转载]用SPSS处理缺失值和极端数据
2016-03-16 13:14阅读:
转自
http://topbio.spaces.live.com/blog/cns!92A0E0380BCF83AD!160.entrySPSS
作为目前最流行的统计软件包, 以其功能强大、界面友好而被广泛使用. 但很多用户在数据录入完毕后就开始了统计分析,
这常常会导致结果的错误. 其实在这之前还有一项重要的工作要做就是数据的检查与筛选( screening data). SPSS
在这方面为我们提供了很多有用的功能. 但很多用户常常忽略这些功能, 而目前的统计教材、SPSS 的教材中几乎没有这方面的专门论著,
我们以SPSS 最新的10. 0版本为例, 就在其中如何利用各种功能进行数据的检查与筛选进行探讨. SPSS 的其他版本及SA S,
SPLM 等统计软件与此类似.
1 数据的采集、录入阶段数据产生差错的原因
1. 1 被试差错 多见于自陈式问卷调查中. 如: 由于社会赞许等原因导致被试对某问题不能真实回答从而造成数据偏态;
由于敏感的问题导致被试拒绝回答从而造成数据不全.
1. 2 仪器差错 多见于使用心理测评仪进行测量的时候.
1. 3 主试差错 由于心理学数据常常非常庞大, 因此在数据录入时难免出错; 另外数据在文本文件、EXCEL、ACCESS、SPSS
等不同格式、不同版本之间转换时, 在心理测评仪向计算机传输数据时也常会发生错行、乱码等错误[1 ].
2 数据的检查与筛选 保证数据准确的最好方法是将原始数据与计算机所呈现的数据清单进行核对. 但对庞大的数据这几乎是不可能的.
这时就需要
应用描述性统计量和统计图来进行筛选和检测. 最重要的是解决三个问题: 所有的数据都在允许的范围内吗? 平均数和标准差都比较合理吗?
有无超出取值范围的数据?
2. 1 缺失值(m issing values) 缺失值是数据分析中一个非常常见的现象, 出现的主要原因有:
设备故障、拒绝回答、测验时走神等, 对此应:
2. 1. 1 缺失值的检测 SPSS 默认缺失值以黑点表示, 可以通过快速浏览数据列表(data view ) 发现,
记录下缺失值所在的变量即数据的列.
2. 1. 2 对缺失值的处理 (1) 剔除有缺失值的观测单位, 即删除SPSS 数据列表中缺失值所在的数据行; 在SPSS
的统计分析程序中, 打开op t ions 按钮, 便会出现缺失值的处理栏(m issing values) , 可分别选择下列选项:
exclude cases analysis by analysis (剔除正在分析的变量中带缺失值的观察单位) ; exclude
case list w ise (剔除所有分析变量中带缺失值的观察单位) ; (2) 对缺失值进行估计后补上.
主要有两种方法:一是根据文献报道等知识经验进行估计; 二是用SPSS 提供的工具进行估计. 在“t ransfo rm
”菜单下的“rep lace m issing values”列出了5 种替代的方法: (a) series mean:
以列的算术平均值进行替代; (b)mean of nearly po int: 以缺失值邻近点的算术平均值进行替代; (c)M
edian of nearly po int: 以缺失值临近点的中位数替代; (d) linear interpo lat ion:
根据缺失值前后的2 个观察值进行线性内查法估计和替代; (e) linear t rend at po int:
用线形回归法进行估计和替代; (3) 将缺失值作为常数值, 如: 作为“0”.
2. 2 奇异值(out liers) 和极端值(ext reme values)
奇异值和极端值是指各变量中与整体数据相距太远的极值, 由于它的夸大作用, 常常会歪曲统计结果, 导致犯一类和二类错误.
通常有四种原因可导致奇异值的出现: (1) 数据输入时出错; (2)在不同数据格式之间进行转换时,
缺失值处的数码代号被当成了实际观测值; (3) 出现奇异值的样本并非属于所要考察的总体; (4)
考察的样本相对于正态分布有比较多的极值.
2. 2. 1 奇异值和极端值的检测 用柱状图、箱丝图、茎叶图、正态检验的Q 2Q 图等检测有无极端值和奇异值. 以箱丝图为例,
箱丝图中都标有奇异值的行号, 看不清时可拖动边框将箱丝图放大查看.
2. 2. 2 减少奇异值和极端值影响的方法 (1) 将奇异值和极端值作为缺失值处理: 在“variable view
”视图中点击“m issing”栏下含有奇异值和极端值的变量, 弹出“m issing values”对话框, 有3 个选项可以使用:
(a)“discrete m issing values”最多可以指定3 个数值为缺失值, (b)“range of m issing
values”指定某一取值范围内的数值为缺失值; (c)“range p lus one op t ional discrete m
issing”指定某一取值范围和某一特定数值为缺失值; (2) 根据检测的奇异值和极端值, 用“dataø select
cases”工具中的“if??”对数据的取值范围进行限定,然后再进行统计分析; (3) 对奇异值进行估计. 方法同缺失值的估计;
(4) 将原始数据转换成标准Z 分数( stat ist ics ösum2marize ödescrip t ives ösave
standardized value as) 或进行其他的转换后再进行统计分析; (5) 删除奇异值所在的观察单位.
2. 3 统计分析前的假设检验 许多统计检验都需要样本数据服从正态分布, 并且相关联的变量之间应方差齐同.
若不符合上述条件便应进行数据转换, 否则便会导致错误[2 ]. 但对于大样本数据, 我们可以近似地认为其为正态分布,
而不用去进行正态性检验. “analyze”下的“descrip t ives”,“frequencies”和“exp lo
re”可以完成这些工作.
2. 3. 1 方差齐性检验( sp read vs. level w ith levene test)
“descrip t ives”和“frequencies”的功能基本相同, 都可进行正态性检验和方差齐性检验. 若满足方差齐性,
则可进行下一步工作; 若不满足, 选“pow er est imet ion”进行数据变换来满足方差齐性. 有6 种方法可供选择:
(1) natural log: 取自然对数; (2) 1ösfquare roo t: 取平方根的倒数; (3) recip
rocal: 取倒数; (4) square roo t: 取平方根; (5) square: 取平方; (6) cube: 取立方.
若SPSS 提供的6 种变换均不能满足要求, 应考虑采用非参数统计的方法.
2. 3. 2 正态检验(no rmality p lo ts w ith tests) 在“analyzeødescrip t
ives stat ist ics exp lo re”中可进行正态检验, 及做出Q 2Q 图. 若不支持正态分布,
则应进行数据变换, 方法同方差齐性检验, 或选用非参数统计的方法.
2. 4 相关分析前的数据检查 相关分析之前应用“descrip2t ives stat ist ics”对数据进行观察.
当一个变量取值范围很窄, 应做数据变换后再进行相关分析, 否则会使相关的资料得出不相关的结论;
在做连续变量和等级资料的相关或两个等级资料的相关时, 若90% 的被试都选择等级资料中的一种情况(如: 90%的被试都选择“严重”)
, 则相关性通常会很低, 对这类数据应用其他方法进行分析; 当均值是一个很大的数, 而同时标准差很小时, 相关系数值通常也会很小,
对这样的资料不宜做相关分析.
#专业交流