第K2期：发展视角下学生成长评价模型的实践与展望

2020-05-03 11:07阅读：

http://blog.sina.cn/dpool/blog/u/1712354200

第K2期：发展视角下学生成长评价模型的实践与展望

按：学习，不仅要追求“达标”，更要追求“成长（growth）”。对于一些基础好的学生，实现“达标”并不一定能够实现“成长”；对于一些基础薄弱的学生，即使暂时“达标”有困难，仍然可以通过学习获得“成长”。这就是新的“达标+成长”的教育理念和教育测量模型。
我们强调“成长评估（growth assessment）”，是为了推动中国教育超越那种“千人一面”的“达标评估”，是为了倡导更加个性化的学习；是为了超越传统关于知识记忆的评估，推动对学生核心素养的评估。
中国与美国的国情不同。美国强调“成长”，主要的着眼点是那些可能掉队（left behind）的学生，是力图帮助那些“达标”有困难的学生获得“成长”，鼓励那些帮助这些学生获得一定程度成长的教师和学校。我们强调“成长”，着眼点更多在那些基础较好的学生，力争帮助他们不

仅“达标”而且获得实际的“成长”，鼓励那些帮助这些学生获得进一步成长的教师和学校。
本文发表于《教育测量与评价》2020年第2期，转载于《成长评价系统》微信公众号。
【摘要】发展视角下的学生成长评价模型以多次测试成绩为自变量，首先对其进行等值化处理，然后选择线性回归方程来建构残差模型，并利用标准估算误差、残差标准差、相对误差、卡方分析等指标和方法来科学分析测试次数与模型预测准确度之间的关系。分析结果表明，以1次或2次测试成绩作为自变量建构的回归方程，其预测准确度偏弱，比较理想的自变量数为5次测试成绩，以3次或4次测试成绩作为自变量也是可以接受的。发展视角下学生成长评价模型的建构不是对于传统评价或分数的否定，而是思考如何在学校层面，科学利用有限的测试次数，对传统的测试成绩进行精准分析，从而有效建构起学生成长评价模型并用于教学评价实践。
一、问题提出
长期以来，我国基础教育主要以考试分数作为评价学生的依据，这种评价手段确实在人才选拔、学生培养方面起到了相当的成效，但在实践过程中也暴露出一些问题。因为传统的考试分数往往是绝对的、静态的，其主要发挥了判优劣、重选拔的技术属性，但无法从动态的、发展的视角对学生学业成绩做出预测，无法通过学业成长性评价有效激励学生的成长。
2015年，美国政府颁布了《每一个学生成功法案》（Every Student Succeeds Act，ESSA），提出了“既关注‘达标’，又重视‘发展’”的理念。[1]基于ESSA，美国各州开展了“基于学生几次的测试成绩，通过一定的数学计算方法以做出对学生、学校、教师有关的解释”的成长评价，成长模型成为各州对学生、学校和学区进行教育评估（assessment）和问责（accountability）的主要方法。[2]
基于美国的有益经验，国内很多研究者开始关注学生成长评价，并开展了一些积极的探索，但学生成长评价模型尚未在国内进行大面积的实践，而且研究者们对于“实践中应以多少次考试分数作为自变量来建构模型才能达到较好的预测效果”这一问题还没有确切的答案。因此，我国基础教育阶段的学生成长评价还有很长一段路要走。本研究以现有考试分数为基础，将考试分数与学生成长模型进行有机整合，并通过对回归模型的分析优化，利用标准估算误差、残差标准差、相对误差等指标，科学分析了考试次数与模型预测准确度之间的关系。本研究也是基层中小学校基于传统分数，建构学生成长模型对学生进行动态的、发展的评价的一次有益探索。

二、学生成长评价模型的建构

1. 成长模型的选定

目前，国外基于学生成长视角的评价模型中比较流行和成熟的主要是美国的三大类七种模型，即基于纵向量表的模型、预测模型和增值模型。
其中，第一类纵向量表模型主要包括增分模型（前后标准分的增量）、渐进达标模型（基于最初的标准分增量，来确定今后每年的进步值）和分类模型（基于分数的等级变化）。其实，目前国内用来评价学生进步与成长的评价方法与这三种纵向量表模型类似，但这三种模型都是基于纵向量表之上的，而纵向量表的开发是一个浩大的工程，我国尚不具备采用这类模型的现实条件。
第二类预测模型就是为了弥补纵向量表模型的缺陷而研发出来的，主要包括残差模型（基于两年测试标准分的线性回归方程构建）、成长百分等级（基于SGP 技术的学生成长等级预测）、投射模型（基于多组数据及相关因素的回归方程构建）。
第三类增值模型又称为多变量模型。增值模型的构建不仅包含分数因素，还要将多种影响学生学习、成长的因素纳入其中，模型结构非常复杂。所以，即使在美国，这种模型的运用也比较少，很多评价专家也曾呼吁谨慎使用该模型。[3]另外，增值模型涉及多因素分析，不利于大面积的推广实施，因此，本研究暂时舍去增值模型。
如此，第二类预测模型成为本次研究的首选，其中的残差模型应用简单，软硬件技术也可以跟进，最终选定其作为本研究中学生成长的评价模型。

2. 残差模型的界定

残差模型在美国的实践是以学生前后两年测试成绩为参考，在两年成绩之间建立线性回归方程，并通过函数方程来预测学生的成绩，然后用真实值减去预测值便得到学生的残差值。若残差>0，说明学生“成长性”为正；若残差<0，说明学生“成长性”为负。同时，还可将残差标准化处理后，对学生成长性进行等级排列。[4]

3. 优化残差模型的目的

从数理统计上来看，用于线性回归方程预测的成绩数量多少决定了函数预测的准确性，若成绩数量过少，回归方程预测会出现较大误差。因此，本研究以理论难度系数为0.75 的学校标准化考试成绩为自变量构建8 组回归方程，并对自变量数量与模型预测能力之间的关系进行分析，以探寻在有限考试次数的背景下构建适合学校实践的残差模型。

4. 优化残差模型的实践

（1）学生样本选取本研究以浙江省杭州市C 学校九年级学生的9 次科学测试成绩为参照点来进行研究。样本选择主要基于以下两方面的思考：大样本更有利于得到普遍规律；九年级学生测试成绩参考点比较多，便于构建多组线性回归曲线。
（2）统计分析工具选取本研究采用IBM SPSS Statistics 24 和Excel 软件进行统计分析。
（3）整体优化思路

图1 成长模型选择、建构的框架图

本研究选择623 名九年级学生为样本，首先将他们的9 次科学测试成绩（七、八年级期中、期末共8 次测试，再加上九年级上学期期中测试）进行等值化处理，然后选取学生成长模型中的残差模型，再以取样学生的不同考试次数为自变量建立线性回归方程，通过分析不同考试次数与模型预测准确度之间的关系，来对残差模型做进一步的优化。（见图1）
（4）具体优化过程
①原始成绩值的等值化处理
等值化处理必须符合以下标准：新测验与标杆测试在内容和结构上相同；两次测试必须信度相同或相近；两次测试之间的分值必须存在对称性；考生选考任何一次测验所得量表分数必须是等价公平的；等值关系在同一个总体上是不变的；两次被测样本所具有的能力分布相近；等值设计中的锚测验必须与标杆试卷完全一致。[5]
对照上述标准，由于是对同一批623 名学生进行9 次科学测试，且9 次测试的试卷命制要求进行了严格的规定，因此不管是从被试能力，还是从试卷的结构内容、信度及难度来看，其前后都基本保持了一致。与此同时，这9 次测试的组卷、监考、阅卷、分数统计流程也非常规范，因而可以认为考生测验分数的获取是相对公平公正的。由此，本研究以第一次科学测试为标杆测试，采用线性等值的方法来进行多次测试分数的等值换算。公式如下：

表1 转置后的部分线性等值分表

上式中，X 为新测验的原始分，Mx 与 SDx 分别为新测验的均分与标准差；Y 为考生在标杆测验中的得分，My 与SDy 分别为标杆测验的均分与标准差。
将上述等值分录入Excel，后导入SPSS 进行处理，表1 为转置后的部分线性等值分数。
②线性回归方程的建构
由于选用了9 次科学测试成绩，本研究以“七上期中”“七上期末”“七下期中”“七下期末”“八上期中”“八上期末”“八下期中”“八下期末”“九上期中”这9 次测试成绩为基础，以第1 次“七上期中”为自变量，第2 次“七上期末”为因变量建立线性回归方程并预测“七上期末”成绩，该模型记为模型；以“七上期中”和“七上期末”为自变量，“七下期中”为因变量建立线性回归方程并预测“七下期中”成绩，该模型记为模型，以此类推。按照这种思路分别建立起后面几组线性回归方程，总共建构了8 组线性回归方程并用于预测，分别标记为：模型、模型、模型、模型、模型、模型、模型、模型。
③8 组线性回归模型的检验
为了全方位分析比较8 组模型的解释预测效果，我们需要从拟合优度检验、显著性F 检验、D-W 检验、共线性检验、显著性t 检验等方面来进行统计分析。拟合优度检验：该指标主要检验自变量对因变量的解释程度，主要通过校正决定系数（调整后R2）来进行检验。
显著性F 检验：主要检验全体自变量是否与全体因变量存在显著性线性关系。
D-W 检验：主要用于检验模型是否存在自相关。
表 2 中，F 检验的 Sig.<0.001，说明 8 组模型自变量均与因变量存在显著性线性关系；D-W均在2 左右，说明模型不存在自相关；拟合优度即R2值，模型和模型的解释率总体均低于0.7，模型和模型的解释率均接近0.8，而模型、、、的解释率都在0.8 以上，说明对于这一届九年级学生样本而言，以5 次及以上测试成绩为自变量建构的模型是较好的，以3 次或4 次测试成绩为自变量建构的模型可以接受，但以一次或两次测试成绩为自变量建构的模型则相对不适宜。[6]

表2 检验统计结果

注：“含1 组自变量”即表示“以一次测试（含有623 名学生的成绩）”为自变量建构线性回归方程。以此类推。
共线性检验：多元线性回归的前提是自变量间不能存在共线性关系。因此，本研究通过VIF指标来检验自变量间的共线性是否存在。
表3 中，上述8 组模型中的VIF 值均小于10，因此自变量间不存在共线性。[6]
显著性t 检验：主要用于检验常数项、自变量、因变量之间的线性关系是否显著。

表3 模型共线性检验统计结果

表4 中，随着自变量组增加，模型中某些自变量与因变量之间的关系呈现出非显著性。如模型中“七上期中、七上期末、七下期中、七下期末”自变量的Sig.>0.05，它们与因变量之间的线性关系不显著。但在模型至模型中我们又发现，离所要预测值最近的连续3（或4 或5）组自变量均表现出了与因变量之间的显著性。如模型中自变量（七上期中、七上期末、七下期中）呈现出与因变量（七下期末）之间的显著性。考虑到模型与模型可能由于自变量过少导致解释率较低，因此建议在利用残差模型预测学生成绩的时候，最好能以离预测值最近的5 次测试成绩作为自变量来进行模型建构，若没有足够组的测试成绩，最近的3 次或4 次测试成绩作为自变量也是可以接受的。

表4 显著性检验统计结果

将模型进行调整后，本研究对所构建模型的预测准确度进行了分析。
④模型优化
本研究通过线性回归中的“步进”方法，对Sig.>0.05 的自变量进行了删除处理，因此各模型的自变量成绩组数也随之进行了如下调整：
模型、模型、模型、模型自变量不做调整；
模型删除自变量七上期中、七上期末，保留自变量七下期中、七下期末、八上期中，记为模型’；
以此类推，建构新的模型’和模型’（包含4 组自变量）、模型’（包含5 组自变量）。调整后的各模型所得结果统计情况如表5 所示。
为了说明自变量组的增多对回归方程预测能力的影响，我们可以参考标准估算的误差。表5的数据显示，随着考试次数的增加，标准估算误差在减小。同时结合参考残差标准差，标准差是一组数据较平均值分散程度的一种度量。一个较大的标准差，代表大部分数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。[7]通过标准差指标，我们进一步确认，随着考试次数的增加，预测值相较于真实值的波动幅度总体趋势在减小。

表5 各模型残差统计

⑤对优化后的8 组模型的残差分数段分析
为了能更好地解读优化后的8组模型残差分数段，我们将残差值按“≤10 分”“≤20 分”“≤30 分”“≤40 分”“≤50 分”以及“>50 分”段内人数分布进行了统计，结果如表6所示。

表6 不同“残差”分数段人数分布统计

为了更加直观地表示表6 中各分数段人数的分布，我们又将其转化为如图2 所示的柱状图。我们发现，若自变量组过少，其残差值波动幅度会很大，如模型，其残差波动幅度过大，不宜采用。从3 组自变量开始，残差值5 分及10 分以内的人数逐渐提高，残差值超过20 分的人数大幅减少；4～5 组自变量时，残差绝对值 5 分、10 分及15 分以内的人数基本为：390 人左右/623 人、560 人左右/623 人、610 人左右/623 人。
图2 不同残差分数段人数分布图

⑥8 组模型间对“不同相对误差段内”人数预测效果的显著性差异分析 为了能更加精准地测度不同模型的预测情况，本研究引进了相对误差来测度不同误差范围内的人数，进而比较8 组模型对“不同相对误差段内”人数的预测是否有显著性差异。相对误差主要以5%以内、10%以内、15%以内、20%以内（含）这4 组进行比较，结果如表7 所示。
相对误差=ABS（实际值-预测值）/实际值。[8]其中，“ABS（实际值-预测值）”表示对“（实际值-预测值）”取绝对值。

表7 相对误差段内人数统计

通过对8 组模型计算出每一个预测值的相对误差，并通过“SPSS→分析→描述统计→交叉表中的卡方检验”，我们针对不同模型是否对不同相对误差段内人数的预测存在显著性差异进行了检验。以“相对误差5%以内”对“模型”与“模型”进行交叉表（卡方检验）分析为例，具体检验结果如表8 和表9 所示。

表8 相对误差5%以内的模型与模型交叉表模型

表9 卡方检验表

注：“a”：0 个单元格的期望计数小于5。最小期望计数为263.50。“b”：仅针对 2×2 表进行计算。
由于上述为2×2 表，因此通过参照费希尔精确检验的原则[9]，其精确显著性（双侧）值为0.003，远小于0.05，说明样本案例不支持原假设，因此认为模型和模型对于预测“相对误差5%以内”的人数存在显著性差异，模型要显著优于模型。按照同样的方法，本研究通过卡方检验，逐一对8 组模型进行两两比对，以获得模型间对于“相对误差5%、10%、15%、20%以内”的人数预测是否存在显著性差异的证据，最后根据8 组模型间对各误差段内人数的预测有无显著性差异，将模型进行归类，对预测结果无显著性差异的模型归在同一方格内，对预测结果有显著性差异的模型归在不同的方格内。

表10 模型对“各相对误差段内人数”的预测效果有无显著性差异分组表

表10 中，以“相对误差5%以内”组为例：2 号方格内有“模型”和“模型”，说明这两个模型对“相对误差5%以内”的人数预测无显著性差异，而1 号方格中的“模型”与2 号方格中的“模型（或模型）”对于“相对误差5%以内”的人数预测存在显著性差异，即2 号方格内的“模型、模型”的预测效果要显著优于1 号方格内的模型。因此，通过表10我们可以非常直观地看到，对于C 校九年级学生而言，若要建构基于残差的成长模型，用1 组或2组自变量建构的回归方程预测准确度偏弱，比较理想的自变量组数为5 组，3 组或4 组自变量也是可以接受的。
（5）基于残差的成长模型的应用
该模型最大的优势是通过预测学生的学业成绩，然后将实测成绩与预测成绩进行比较，进而反映学生的学业“成长”情况。如以“八上期中、八上期末、八下期中、八下期末”为自变量，建构线性回归方程为：y=6.326+0.146x1+0.271x2+0.204x3+0.330x4，将学生前4 次成绩得分133.42分、134.62 分、141.90 分和 141.89 代入方程，便得出其预测值为138.06 分，而该生实际测试值为139.47 分。若以传统的评价视角，该学生较前一次141.89 分来说成绩有所退步，但是以“成长”的视角来看，该学生的残差为1.41 分，残差大于0，因此总体来说该学生还是有所进步的。
（6）极值的处理
构建学生成长评价模型仅仅是从数理的角度来预测学生成绩，所以有可能导致有时候预测出来的成绩远远高于或低于学生的实际水平。因此，在实际运用中，我们还要充分考虑学生能力的边界。通过统计623 组数据我们发现，99.5%样本的预测值位于样本前几次数据中最大值（MAX）与最小值（MIN）的上浮或下浮5%区间内。因此，学生学业水平最大或最小边界可用以下两个经验公式表示：

根据这两个公式，我们可以分别以149.0 分和126.7 分为上述模型中学生的最大（小）边界值。当预测值高（低）于边界值时，我们就以边界值代替预测值，以此来解决极值的问题。

三、总结与展望

学生成长评价模型可以向教师、学生、家长提供关于学生学习表现更为丰富的信息，在改进学习和教学方面，也可以提供更多参考依据。
其一，根据成长评估结果，我们不仅可以告诉一些学习成绩尚不理想的学生，“虽然你这次学习成绩不理想，但与以前相比，你已经取得了一定的成长和进步”，而且可以告诉一些学习表现较好的学生，“虽然你这次成绩不错，但与以前相比，你并没有取得明显的成长和进步”。
其二，如果623 名学生被划为若干个班级，其任课教师不止一位，那么，通过学生成长评估结果，我们可以获得对各任课教师教学效果的评估，也可以知道不同班级学生的成长情况。我们可以了解到，虽然某个班级的某次测试平均成绩不理想，但与以往相比，取得了明显的进步；虽然某个班级的某次测试平均成绩不错，但与以往相比进步并不明显。我们可以了解到，虽然某位教师任教的班级某次测试平均成绩不理想，但与以往相比取得了明显的进步；虽然某位教师任教的班级某次测试平均成绩不错，但与以往相比进步并不明显。这种发展性评估的重点不是教师任教班级的学生基础，而是教师在帮助学生成长方面所取得的成绩。
学生成长评价模型是未来教育测量的重要发展方向，在今后的实践和探索过程中，教育教学研究者、学校管理人员和一线教师要着重关注以下几个方面。

1. 妥善处理成长模型与传统评价之间的关系

虽然传统评价即纸笔测试在具体操作中存在一些问题，但总体而言在当下的中国其对于整个社会的意义是不言而喻的。因此，从地位关系上来看，传统评价仍处于主要地位，而成长模型可以作为其重要的补充。从作用关系上来看，传统评价主要还是发挥其重选拔的技术功能，以此维持社会的公平正义及人才选拔的高效有序，成长模型则可以发挥其重激励的伦理功能，以此关怀学生的内心、激发学生的潜能。从评价整体性上来看，传统评价和成长模型相辅相成，不可分割。一方面，在教育教学评价实践中抓好传统评价，这是守住公平正义、保障教学质量的底线和根本。另一方面，适时引入成长评价模型这一“情感节拍器”，可以更好地促进传统评价的实施和发展，更有效地发挥传统评价的作用。

2. 有效发挥成长模型对学生情感的正向激励作用

由于成长评价模型可以通过实际水平与预测水平的差值即“残差”来更好地反映学生的学业成长情况，它较之以往根据前后两次学业成绩的名次进退来评价学生成长的传统方式，更加科学、精细和人本，因此，笔者所在学校将该模型与现有的学生激励体系进行有机结合，成功探索出了基于“成长值”的学校三级激励评价体系，即常态检测下的班级个性化成长激励；期中质量检测下的年级“三荷好少年”表彰；期末质量检测下的学校“美丽学生表彰大会”奖评。通过该模型的有效应用，一方面，可以呈现出类似于上文分析中的“退步中看进步”的评价视角，另一方面，三级激励评价体系的有效建构也可以让更多的学生得到肯定和鼓励，以实现激励的常态化和全员化，更好地体现评价的最终目标——让每一名学生都体会到成功！

3. 积极探索成长模型由单一共性向多元个性转变

目前，我们在学生发展性成长评价方面的实践探索主要还是基于一元线性回归方程建构学生学业成长模型，但是在实际建构中我们发现，基于一元线性回归的模型存在一些问题，如，某些学生历次成绩波动较大，由此建构的一元线性曲线无法很好地与该学生的成绩轨迹进行耦合，最终导致预测值对实际值的解释量不足。因此，后续的实践中我们还需要探索出在大量学生样本下，如何快速、高效地实现个性化的成长模型的构建，如一部分学生学业轨迹适用于一元曲线模型，而另外一部分学生则可能更适用于二次曲线、复合曲线、对数曲线等模型。因此，“一生一模”的个性化成长模型的建构，不仅是该评价模式今后深入推进、长远发展的战略需要，同时也是评价走向精准化、个性化、友好化的必然选择。
参考文献： ［1］谢小庆.用于成长评估的学生成长百分等级模型：来自美国的经验［J］.教育测量与评价，2019（6）：3-9. ［2］Castellano，K E，Ho，A D..Practitioner’s Guide to Growth Models［M］.Washington，D C：CCSSO，2014. ［3］王小平，齐森，谢小庆.美国学校“成长测量”的7种主要方法［J］.中国考试，2018（6）：21-27. ［4］WYSE A E，SEO D G. A Comparison of Three Conditional Growth Percentile Methods：Student Growth Percentiles，Percentile Rank Residuals，and a Matching Method［J］. Practical Assessment，Research & Evaluation，2014，19（15）：12. ［5］杨志明.线性等值与等百分位等值的实施条件与步骤［J］.教育测量与评价，2016（12）：4-8. ［6］杨晓明.SPSS 在教育统计中的应用［M］.北京：高等教育出版社，2012. ［7］冯伯麟.教育统计学［M］.北京：人民教育出版社，2005. ［8］周明昌，闫洁，刘敬威.检测与计量［M］.北京：化学工业出版社，2004. ［9］孙振球.医学统计学［M］.北京：人民卫生出版社，2014.
*************************
学习，不仅要追求“达标”，更要追求“成长（growth）”。对于一些基础好的学生，实现“达标”并不一定能够实现“成长”；对于一些基础薄弱的学生，即使暂时“达标”有困难，仍然可以通过学习获得“成长”。这就是新的“达标+成长”的教育理念和教育评估模型。基于成长评估，那些能够帮助暂时“达标”有困难的学生获得“成长”的教师和学校，那些能够帮助优秀生不仅“达标”而且获得进一步实际“成长”的教师和学校，将受到鼓励和表彰。请扫描或长按下面的二维码关注“成长评估”。

（转自：审辩式思维微信公众平台作者：祝钱）

举报/Report

我的更多文章

下载客户端阅读体验更佳

APP专享

新浪博客

第K2期：发展视角下学生成长评价模型的实践与展望