区分度与难度
2017-12-19 14:28阅读:
区分度是指一个测验题目能够在多大程度上区分所要测量的心理品质,反映了测验题目对心理品质区分的
有效性。一个具有良好区分度的题目,在区分被测者时应当是有效的。能通过该项目或是在该项目上得分高的被测者,其对应的品质也较突出;反之,区分度较差的项目就不能有效地鉴别水平高或低的被测者。因此,区分度也叫做项目的
效度,并作为评价项目质量、筛选项目的主要依据。
区分度的计算以被测者对项目的反应与某种参照标准之间的关系为基础,其
取值范围是-1.00~+1.00。一般情况下,区分度应为正值,称作积极区分,值越大则区分度越好;若区分度为负值,则为消极区分,说明这个题目有问题,应删除或重新修订;区分度为0,为无区分作用。
[1]
- 中文名
- 区分度
- 外文名
- discrimination
- 别 称
- 项目的效度
- 用 途
- 评价项目质量、筛选项目
- 取值范围
- -1.00~+1.00
- 特 征
相对性
目录
- 1 概念
- 2 相对性
- 3 区分度的指标及计算
- ▪ 区分度指数
- ▪ 相关系数法
- 4 项目特征曲线
- 5 区分度和难度
概念
编辑
区分度(discrimination)是指测验项目对于所研究的受测者的心理特性的区分程度或
鉴别能力。区分度高的项目,能将不同水平的受测者区分开来,能力强、水平高的受测者得分高,能力弱、水平低的受测者得分低;区分度低的项目,就没有很好的鉴别能力,水平高和水平低的受测者得分差不多。
[2]
区分度是指测验题目对所要测量的心理特性的
灵敏度或鉴别能力。凡是区分度较好的题目,则能将不同水平的
被试区别开来。题目的区分度从实质上讲就是题目本身的
效度。题目的区分度是评价题目质量好坏的一个重要指标,也是筛选题目的主要依据。
[3]
项目区分度(item
discrimination)是指项目对不同水平的被试的区分程度。项目区分度分析可以分为两种类型:一种是“项目效度”的分析,根据外部校标选取题目,适用于
人格测验;另一种是“内部一致性”分析,根据测验总分选取题目,适用于教育
成就测验和
能力倾向测验。
[4]
相对性
编辑
1)采用不同的计算方法,区分度的值也有所不同。因此,在分析一份测验题目的区分度时,对同一类型的题目须采用同一种计算题目区分度的方法,结果才好相互比较,进而筛选题目。
2)一个题目区分度的大小受被试团体
异质程度的影响。被试团体越
同质,同一题目的区分度值越小;若被试团体越异质,同一题目区分度则越大。因此,在说明题目区分度时总是针对某个具体的被试团体而言,离开具体的被试团体一般地、抽象地谈题目的区分度是没有任何意义的。
3)用相关法计算题目区分度的可靠性受
样本大小的影响。一般而言,样本越大,区分度值越可靠。但样本太大,反而增加计算量,也毫无实际意义,应适可而止。
4)区分度
指数D值受分组标准的影响。在编制
标准化测验时,通常用370个被试作为预测样本的
容量,以27%作为分组标准,这样高分组和低分组恰好各位100名被试,会给后面的计算带来方便。
由于区分度具有
相对性,很难确定一个绝对水平作为取舍题目的标准。在根据题目区分度来筛选题目时,总要考虑到测验的目的和功能。于学科测验而言,一般要求相关系数达到显著性水准,或区分度指数D值在0.20以上,国际上优秀题目的区分度要求达到0.40以上。若是一个选拔人才的测验,题目的区分度要尽量高一些。美国教育与心理测量学家艾伯(L.
Ebel)根据区分度指数提出一个评价题目优劣的标准,见表1-1。
[3]
表1-1 题目区分度指数与优劣评价
区分度指数(D)
|
试题评价 |
| 0.40分以上 |
非常优良 |
| 0.30-0.39 |
良好 |
| 0.20-0.29 |
尚可,须修改 |
| 0.19以下 |
劣,必须淘汰 |
区分度的指标及计算
编辑
区分度的常用指标为
D,取值在-1~1之间,值越大区分度越好。测量学家
伊贝尔认为:试题的区分度在0.4以上表明此题的区分度很好,0.3~0.39表明此题的区分度较好,0.2~0.29表明此题的区分度不太好需修改,0.19以下表明此题的区分度不好应淘汰。
区分度的计算方法有两种:区分度指数和相关系数。
区分度指数
区分度指数(index of discrimination,D)的具体公式如下:
式中,D为区分度指数,PH为高分组的项目
难度,PL为低分组的项目难度。
显而易见,高低分两组越是极端,区分度指数就越明显。但,个案过少则会减少结果的信度。
凯利(T.
L. Kelley)指出,在
正态分布中,兼顾两者的最佳百分数是27%。对于小样本,如一个常规教学班,可取25%-33%之间的任何数字,只要使用方便。
区分度指数D和项目难度P彼此并不独立,项目难度为中等水平时,区分度指数为最大值。不同难度的项目的区分度指数最大值见表1-2。
[4]
表1-2 项目难度和区分度指数最大值的关系
PT
|
PH |
PL |
D最大值 |
| 1.00 |
1.00 |
1.00 |
0.00 |
| 0.90 |
1.00 |
0.80 |
0.20 |
| 0.80 |
1.00 |
0.60 |
0.40 |
| 0.70 |
1.00 |
0.40 |
0.60 |
| 0.60 |
1.00 |
0.20 |
0.80 |
| 0.50 |
1.00 |
0.00 |
1.00 |
| 0.40 |
0.80 |
0.00 |
0.00 |
| 0.30 |
0.60 |
0.00 |
0.60 |
| 0.20 |
0.40 |
0.00 |
0.40 |
0.10
|
0.20 |
0.00 |
0.20 |
| 0.00 |
0.00 |
0.00
|
0.00 |
相关系数法
通过计算某一题目得分与测验总得分或效标分数的相关系数来判定。相关越大,区分度越高。
1)点二列相关
当测验总分为正态连续变量,题目分为二分变量(对、错或通过、未通过)时,可用点二列相关公式计算区分度。其计算公式是:
式中,r
qb为二点列相关系数,即题目区分度;
为答对题目被试测验总分平均分,
为答错题目被试测验总分平均分,s
t为全体被试测验总分
标准差,p为答对题目被试占总被试人数
比率,q=1-p。
用点二列相关公式计算出来的相关系数需要进行
显著性检验,才能确定它的意义。检验的方式是对点二列相关公式中
和
的差异进行
t检验,若差异显著,表明r
qb显著;若差异不显著,则r
qb不显著。
2)二列相关法
测验总分与题目分两列变量都是正态连续变量,但其中一列变量由于某种原因被分为两个类别,可以用二列相关法计算题目区分度。其计算公式是:
式中,r
b为
二列相关系数,即题目区分度;
为答对题目被试测验总分平均分,
为答错题目被试测验总分平均分,s
t为全体被试测验总分
标准差,p为答对题目被试占总被试人数
比率,q=1-p,y为正态曲线中答对比例所在位置曲线高度。
二列相关系数r
b的显著性用下列公式:
式中,r
b为二列相关系数,p为答对题目被试占总被试人数比率,q=1-p,y为正态曲线中答对比例所在位置曲线高度。求出Z值后,查正态曲线表,若Z>1.96,则相关显著。
3)四分相关法
四分相关法适用于两列变量都是正态连续变量,但都要人为地一分为二的统计资料。计算这类相关采用
皮尔逊余弦π公式,所得相关为四分相关系数,公式如下:
式中,A、B、C、D分别代表四个类别。A和D代表相同符号的次数(++或--),B和C代表相反符号的次数(+-或-+)。
四分相关系数是否显著,可通过下式检验:
式中,p
1、q
1、p
2、q
2为每个类别的累积百分比,y
1和y
2分别是累计百分比为p
1、p
2时正态曲线的高度,可以通过查正态分布表得到。
运用四分相关计算题目区分度时,
样本容量应在200以上,计算出的结果才能比较好地说明问题。
4)
相关法
相关系数适用于两列变量都是二分变量,或者一列是二分变量,另一列虽是
连续变量但也要人为地变为二分变量的情况,其公式如下:
检验
的显著性水平应用下式:
求得X
2值以后,查X
2表,看X
2值是否达到
显著性水平。若X
2值显著,则
值也显著。
5)积差相关法
对于心理测验中的多值评分的题目和学科测验中的主观性试题,可以用
积差相关法计算题目分和测验总分的相关系数,作为题目区分度值。
6)题目与总分相关重叠的校正
计算题目分与测验总分的相关,这是一种局部和总体的相关。在由题目分与总分计算出的相关系数中,必然有相关重叠的成分,使相关系数即题目的区分度偏高,以致各个题目所贡献的变异数比例都很小时,才能把题目与总分相关作为题目区分度的指标。假如不具备这些条件,需要用校正公式对计算出来的相关系数作校正,以去除相关重叠的成分。校正公式如下:
式中,cr为校正后的相关,r为实得的项目与总分相关,n为一份测验中的题目数,s
t为测验总分
标准差,p
i为某个题目的
通过率,q
i=1-p
i
一般而言,当测验题目数量较少,且题目与总分相关不高时,需要用上式对计算出的题目区分度作校正;若一份测验有20个以上的题目时,则不需作校正。
[3]
项目特征曲线
编辑
即便是某个项目具有适当的
难度和区分度,也不能保证对于各个水平的被测者来说都能很有效地发挥作用。对于一个好的测验项目,随着被测者测验总分的增加,其在该项目上的通过率也应该稳步增加。可以通过
项目特征曲线来描述项目的这种特征。
一个好题目的曲线
走向应该是通过率随着总分的升高而增加;反之,说明该题目出得不好或是定错了答案。曲线上通过率为50%的那个点能反映该题目的难度,该点对应的总分越高,说明这个题目的
难度值越小,即难度越大;该点的
斜率能反应该项目的区分度,越陡峭,区分度就越好。这里的难度和区分度都是通过曲线直接看出来的,具体数值的计算比较复杂,往往要借助于计算机。
[1]
区分度和难度
编辑
难度和区分度都是相对的,是针对一定
团体而言的(绝对的难度和区分度是不存在的)。一般说来,较难的项目对高水平的被试区分度高,较易的项目对水平低的被试区分度高,中等难度的项目对中等水平的被试区分度高。这与中等难度的项目区分度最高的说法并不矛盾,因为对被试总体是较难或较易的项目,对水平高或水平低的被试便成了中等难度。由于人的多数
心理特征呈
正态分布,所以当需要把人作最大程度区分时,项目难度的分布也以正态为好,即特别难与特别容易的题目较少,接近中等难度的题目较多,而所有题目的平均难度为0.50。
[2]
什么情况下区分度高呢?或者说什么样的题目才能最大限度地区分不同水平的人群?这就引出了试题项目评价的第二个指标:难度。题目的难度过高,很少人能答对,大部分得分都很低;难度过低,很少人会答错,分数分布在高分端。因而过难或过易的题目都不能很好地区分不同水平的个体。因而当题目的难度为中等时,区分度最高。
一个好的测验中是不是要求所有题目都是中等难度?那高考、
研究生入学考试这样的高水平测试为何还有难度很大或很小的题目?这是因为在一个测验中如果都是中等难度的题目,就又走向另一个极端,即对中等程度的人有最佳鉴别力,而对水平高和水平低的那部分人不能做很好的区分。简言之,不同难度的题目对于不同水平的人来说区分度是不同的。鉴于全体受测者的能力分布往往是呈正态的,测验中题目难度的分布也基本为正态分布,即难、中、易都有分布,中等难度题目最多。只有这样才能保证整个测验有较高的鉴别力。
区分度是测量学中的专有名词,区分度是衡量题目质量的主要指标之一,是在编制测验时筛选题目的依据。区分度是指一道题能多大程度上把不同水平的人区分开来,也即题目的鉴别力。区分度越高,越能把不同水平的受测者区分开来,该道题目被采用的价值也就越大。
工具/原料
- Micorosoft excel2010软件。
- 学生某科目考试成绩明细表。
方法/步骤
- 1
打开学生某次科目考试成绩明细表。
以一个有30名学生参加的考试成绩为例。

- 2
将合并的表格取消合并。
方法:鼠标单击合并的单元格,例如表中的“得分”单元格,点击|工具栏中的 合并后居中
,取消合并。

- 3
将学生成绩按照总分降序排列。
选中【总分】一列,操作【排序和筛选】--【降序】,这样不仅仅实现【总分】一列的降序排列,还能实现,跟某总分所在行的其他单元格一起移动,以免其他数据错位。




- 4
统计计算各题的难度系数。
方法:
30*27%≈8.则高分组和低分组各8人,上面步骤已经按照降序排列,所以从上往下数8个,从最末尾往上数8个,分别为高分组和低分组,剩余的为中间分组。
第一题的难度系数为:P=(PH+PL)/2=0.69
PH=7/8=0.875 PL=4/8=0.50
整个试卷的难度等于所有试题难度之平均值(包括主、客观试题)。
概念:
难度(一般用P表示):难度是指测验试题的难易程度。客观题的难度一般用正确回答试题的人数与参加测验的总人数的比值来表示;主观题的难度一般用参加测试考生在这题的平均得分与该题的分值的比值。适用于主、客观试题的计算公式:
P=(PH+PL)/2 (PH、PL分别为试题针对高分组和低分组考生的难度值)
从最高分开始向下取全部试卷的27%作为高分组;
从最低分开始向上取全部试卷的27%作为低分组。


- 5
统计计算客观性试题区分度D
D=PH-PL
(PH、PL分别为试题高分组和低分组考生的难度值)
方法:例如第一题的区分度为:D=PH-PL=0.875-0.5=0.375.
- 6
统计计算主观试题区分度D
方法:
表中第二题的区分度为:D=(XH-XL)/N(H-L)=0.406
XH=65,XL=52,N=8,H=9,L=5
XL计算方法:选中低分组学员第二题的分数,【自动求和】。同理求XH。
整个试卷的区分度,是所有试题区分度的平均值。
概念:
D=(XH-XL)/N(H-L)
(XH表示接受测验的高分段学生的总得分数,XL表示接受测验的低分段学生的总得分数,N表示接受测验的学生总数,H表示该题的最高得分,L表示该题的最低得分。)



- 7
区分度评价标准:
0.40以上 非常良好
0.30--0.39 良好、如能改进更好
0.20--0.29 尚可、用时需作改进
0.19以下 劣、必须淘汰或改进
题目难度跟题目区分度之间有着一定的联系。难度太大或者太小,都可能使区分度变小;只有难度适中时,才可能有较高的区分度。
END
注意事项
-
难度是试题对学生知识和能力水平的适合程度的指标,是一个相对概念,难度的高低与被试人员的水平直接相关。
难度的取值范围为 0-1之间,当P=0时,试题的实际困难程度最大,当P=1时,试题的实际难度最小。
在一般的教学质量检测中,一份试卷的平均难度应在0.4-0.6之间,只有适中的难度,才能使试题产生区分不同程度考生的最大效果。