增值评价中的天花板和地板效应分析.pdf
《增值评价中的天花板和地板效应分析.pdf》由会员分享,可在线阅读,更多相关《增值评价中的天花板和地板效应分析.pdf(11页珍藏版)》请在咨信网上搜索。
1、收稿日期:基金项目:作者简介:2023-09-20广东省 2022 年度教育科学规划课题(教育综合改革专项)“增值评价模型的理论和应用研究”(2022JKZG082)骆文淑,女,佛山科学技术学院特聘教授;陈方丁,男,广东省教育考试院社会考试与考试评价处副处长。骆文淑1陈方丁2(1.佛山科学技术学院,广东佛山 528225;2.广东省教育考试院,广州 510635)增值评价中的天花板和地板效应分析摘要:天花板和地板效应是增值评价中经常会涉及的问题。其不仅与测验本身的天花板和地板效应相联系,还与增值评价模型的选择有关。残差增分模型和学生成长百分等级模型是增值评价中常用的条件状态模型,其所估计的个体
2、成长是与同等水平学术伙伴比较的相对成长,在一定程度上可以破解天花板和地板效应问题。基于两组考生的中、高考数据进行分析比较,残差增分模型和学生成长百分等级模型在解决天花板和地板效应问题上的有效性得到了验证。研究结果为研究者和教育评价工作者选择增值模型提供了参考。关键词:增值评价;增值模型;天花板效应;地板效应【中图分类号】G405【文献标识码】A【文章编号】1005-8427(2024)03-0087-11DOI:10.19360/ki.11-3303/g4.2024.03.0112020 年,中共中央、国务院发布的 深化新时代教育评价改革总体方案 提出要扭转不科学的教育评价导向,并指出要“改进
3、结果评价,强化过程评价,探索增值评价,健全综合评价”1,为推进我国教育评价改革指引了方向。与关注单次学业成就的结果评价不同,增值评价关注个体在一段时间内所获得的成长,并试图对其成长变化进行量化和解释,有助于提升评价的全面性、客观性和公平性2-4。用于增值评价的统计模型称为成长模型(growth model)或增值模型(value-added model)。两者含义有微妙的差别,前者主要关注个体的成长变化,而后者旨在对个体的成长变化进行解释,尤其是学校或教师对学生成长的增值效应5-7。另外,不同增值模型计算的成长变化有相对和绝对之分。例如,基于增分模型(gain score model)计算的成
4、长分数代表绝对成长,即个体能力水平的绝对变化,但这一模型要求对不同时间点上的测验成绩进行垂直等值,在现实中往往难以做到。而增值评价中常用的条件状态模型(conditional status model),如残差增分模型(residual gain model)和学生成长百分等级模型(student growth percentile model)等,计算的成长分数属于相对成长。相对成长为零不代表没有成长,只表示当前分数与基于前期分数所估计的预期值没有差别。增值评价中一个经常引起关注的问题是因高分学生成长空间受限产生的天花板效应(ceiling effect)8-10。尤其是把学生成长和教师效能
5、联系起来时,这一问题就变得非常突出和敏感。例如,在美国纽约州就曾有教师因为在增值评价中Journal of China Examinations2024年第3期No.3,20242024年第3期获得低分而提出诉讼并获得成功,法庭作出胜诉裁决时一个重要考虑因素就是增值评价中的天花板效应问题11。与天花板效应相对应的是与低分学生成长变化相关的地板效应(flooreffect)。关于增值评价中的天花板和地板效应还有待进一步研究。第一,需要进一步厘清增值评价中天花板和地板效应的内涵,尤其是增值评价中的天花板和地板效应与测验的天花板和地板效应的关系;第二,不同增值模型对个体成长的估计方法如何影响天花板和
6、地板效应值得深入分析。本文首先阐释增值评价中天花板和地板效应的内涵,并指出常用的简单增值评价方法(标准分变化法和位次变化法)如何导致天花板和地板效应。其次,进一步分析两种条件状态模型(残差增分模型和学生成长百分等级模型)如何通过估计相对成长有效地处理天花板和地板效应问题,并基于两组中、高考数据验证这一分析结果。一、天花板效应和地板效应的内涵增值评价中至少包含两次测验成绩,并在此基础上通过增值模型来量化个体的成长变化。传统意义上,天花板效应指的是由于测验相对容易导致相当一部分个体获得最高或接近最高分,因此无法反映他们的真实能力水平的现象12-13。类似地,地板效应指的是由于测验难度高而导致相当一
7、部分个体获得最低或接近最低分,因此无法反映他们的真实能力水平的现象。从这一定义上看,天花板和地板效应可以发生在任何单次测验上,并不专属于增值评价的范畴。与测验的天花板和地板效应含义不同,增值评价中的天花板和地板效应关注的是成长变化的空间受限问题,高分端学生的提升空间受限则导致天花板效应,而低分端学生的下降空间受限则导致地板效应8,11。增值评价中的天花板和地板效应与测验的天花板和地板效应既有区别,又有联系。增值评价基于至少两次测验成绩,如果测验具有天花板和地板效应,就可能影响对个体成长的估计,带来增值评价中的天花板和地板效应。例如,假设第二次考试难度很低,第一次考试中至少一半人在第二次考试中都
8、达到或接近最高分,第二次考试就无法区分中等到高分端学生真实的能力水平,那么不管基于哪种增值模型,高分端学生的成长空间都会受到限制。在一些重要的考试中,这种现象出现的可能性较小。然而,即使测验本身没有天花板和地板效应问题,增值评价方法或模型的选择也可能带来成长变化空间受限问题。例如,很多一线评价工作者常用标准分变化法和位次变化法进行增值评价,其中个体成长是由个体在常模群体中相对位置的变化来表示。如下所述,这种对个体成长的量化方式本身就会导致高分端和低分端学生成长变化空间受限问题。标准分和位次都属于常模参照分数,反映了个体在常模群体中的相对位置。在使用标准分变化法的增值评价中,假设一考生群体中有3
9、0人在第一次考试上的标准分T分数达到最高分80分,那么这一部分人在第二次考试上的T分数最高也只能是80分,因此没有进一步提升空间。同样,假设有30人在第一次考试上的标准分T分数达到最低分20分,那么这一部分人在第二次考试上的T分数最低也只能是20分,因此没有下降空间。类似地,在基于位次变化法的增值评价中,假设有 30 人在第一次考试上是第一名(或最高等级),那么这一部分人在第二次考试上的最高位次也只能是第一名,因此没有进一步提升空间。同样,假设有 30人在第一次考试上是最后一名(或最低等级),那么这一部分人在第二次考试上的最低位次也只能是最后一名,因此没有下降空间。88二、条件状态模型对天花板
10、和地板效应问题的解决方法在增值评价中,除了基于垂直等值的增分模型,条件状态模型是常用的另一类增值模型5-7。条件状态模型对个体当前状态的确定是以过去成绩为条件的,换句话说,基于过去成绩来预测当前成绩进而确定个体是否成长,如果当前成绩超出预期值,说明有成长,如果当前成绩低于预期值,则说明有退步或者成长不足。条件状态模型对当前成绩的预测,并不是简单地根据个体分数不变或在常模群体中的相对位置不变来确定,而是使用统计模型估计出来的。条件状态模型主要包括残差增分模型和学生成长百分等级模型。下面分析这两种增值模型对个体成长的估计如何在一定程度上克服增值评价中的天花板和地板效应问题。(一)残差增分模型残差增
11、分模型通过线性回归分析来估计个体成长。假设X是第一次考试分数,Y是第二次考试分数,Y是基于第一次考试分数对第二次考试分数的预期,那么Y=a+bx;其中,a和b分别是截距和回归系数,Y代表对Y的预测值。基于最小二乘法的原理,Y与Y之差的平方和要达到最小,因此Y=a+bx代表了X和Y 之间的平均线性趋势。如果线性回归的假设(线性、残差独立、符合正态分布且方差齐性)得到满足,那么Y代表每个X值对应Y值的平均数的最佳估计,见图 1。个体成长G 即为Y与Y的差值:G=Y-Y=Y-(a+bx);即个体成长为第二次考试实测分数和基于第一次考试成绩的预测分数之间的残差值。如果残差值为正,则说明相对于预测值有成
12、长,如果残差值为负,则说明相对于预测值有退步或成长不足。基于残差增分模型,假设在一考生群体中有30人在第一次考试上获得最高分(属于最高分的学术伙伴子群体),如果第二次考试对高水平学生具有良好的区分度,那么这30人在第二次考试上分数很可能出现一定的差异。假设这30人第二次考试的平均分数是90分,如果线性回归的假设得到满足,对这30人在第二次考试中的平均分数预期值 Y接近 90。在这 30人中,有的人第二次考试分数在回归线以上,有的人第二次考试分数在回归线以下,两次考试的成长变化用G=Y-Y表示,G有正有负,所以基于线性回归模型,即使第一次考试达到最高分的学生仍然有提升空间。除非第二次考试过于容易
13、,缺乏对高水平学生的区分度,否则基于残差增分模型,不太可能出现明显的天花板效应。类似地,假设在一考生群体中有30人在第一次考试上获得最低分(属于最低分的学术伙伴子群体),如果第二次考试对低水平学生具有良好的区分度,那么这30人在第二次考试上分数很可能出现一定的差异。假设这30人第二次考试的平均分数是10分,如果线性回归的假设得到满足,对这30人在第二次考试中的平均分数预期值 Y接近 10。在这 30人中,有的人第二次考试分数大于预期值,有的人第二8060402001009070503010806040201009070503010Y=a+bx线性回归线YX图1 线性回归模型骆文淑 等:增值评价
14、中的天花板和地板效应分析892024年第3期次考试分数小于预期值,两次考试的成长变化用G=Y-Y表示,G有正有负,所以基于残差增分模型,即使第一次考试达到最低分的学生仍然有下降空间。除非第二次考试非常难,缺乏对低水平学生的区分度,否则基于残差增分模型,不太可能出现明显的地板效应。(二)成长百分等级模型学生成长百分等级模型通过分位数回归得到学生的成长百分等级14。假设X是第一次考试分数,Y是第二次考试分数,Y是基于第一次考试分数对第二次考试分数的预期,那么Y=a+bx();其中,a和b分别是截距和回归系数,是Y上的分位点(01),决定了在Y的哪个分位点上进行回归。分位数回归常采用加权最小一乘准则
15、(权重由值决定)来估计a和b,使得Y与Y的加权绝对差值之和达到最小15。学生成长百分等级模型将Y从低到高分成100个分位点,产生100条回归线,进而将处在每两条回归线中间的点归为一个百分等级,共99个百分等级。在学生成长百分等级模型中,基于第一次考试成绩对第二次考试成绩的预测值Y可以用中位数回归来表示5。如果一名学生第二次考试分数靠近中位数回归线,这名学生第二次考试成绩完全符合预期(不升不降),成长百分等级为50,即在第一次考试同等水平的考生中,这名学生在第二次考试中的表现不低于50%的学术伙伴。如果一名学生的成长百分等级大于50,则说明这名学生第二次考试成绩相比预期有进步,如果一名学生的成长
16、百分等级小于50,则说明这名学生第二次考试成绩相比预期有退步。学生成长百分等级模型不要求数据满足线性回归的假设,但是分位数回归相对复杂,且对样本量的要求较大。我国有学者基于学生成长百分等级模型的原理提出了简易成长百分等级模型9。简易成长百分等级模型不需要估计多条回归线,而是直接根据第一次考试成绩划分学术伙伴子群体,然后根据第二次考试成绩,计算个体在相应学术伙伴子群体中的百分等级,因此属于描述统计。根据该模型,首先将学生按照第一次考试的成绩进行排序,计算每个学生的百分等级,处于每个百分等级的所有学生被视为在第一次考试上同等水平的学术伙伴,那么在每个学术伙伴子群体内某学生在第二次考试上的百分等级,
17、即为该学生的成长百分等级,成长百分等级为50表示不进不退,成长百分等级大于50则有进步,成长百分等级小于50表示不进反退。基于学生成长百分等级模型,假设一考生群体中有30人在第一次考试上获得最高分(属于最高分的学术伙伴子群体),如果第二次考试对高水平学生具有良好的区分度,那么这30人在第二次考试上分数很可能出现一定的差异,部分人在中位数回归线(或简易成长百分等级模型中的中位数)以上,部分人在中位数回归线(或简易成长百分等级模型中的中位数)以下,也就是成长百分等级有的大于50,有的小于50。所以基于学生成长百分等级模型,即使第一次考试达到最高分的学生仍然有提升空间。除非第二次考试过于容易,缺乏对
18、高水平学生的区分度,否则基于学生成长百分等级模型,不太可能出现明显的天花板效应。类似地,假设一考生群体有30人在第一次考试上获得最低分(属于最低分的学术伙伴子群体),如果第二次考试对低水平学生具有良好的区分度,那么这30人在第二次考试上分数很可能出现一定的差异,有的人会在中位数回归线(或简易成长百分等级模型中的中位数)以上,有的人会在中位数回归线(或简易成长百分等级模型中的中位数)以下,也就是成长百分等级有的大于50,有的小于50。所以基于学生成长百分等级模型,即使第一次考试达到最低分的学生仍然90有下降空间。除非第二次考试非常难,缺乏对低水平学生的区分度,否则基于学生成长百分等级模型,不太可
19、能出现明显的地板效应。三、基于中、高考数据的验证分析从以上分析可以看出,相比基于标准分变化和位次变化的增值评价方法,残差增分模型和学生成长百分等级模型对个体成长的估计方式不同。基于标准分变化和位次变化的增值评价方法所计算的个体成长分别是前后两次考试的标准分之差和位次之差。残差增分模型和学生成长百分等级模型所估计的个体成长是与第一次考试同等水平考生(学术伙伴)相比的成长,因此属于相对成长(normative growth)14,16。由于残差增分模型和学生成长百分等级模型所估计的个体成长是在同等水平考生子群体中的相对成长,因此能够较好地破解天花板和地板效应。下面笔者进一步通过两组中、高考数据来验
20、证这一分析结果。(一)数据来源研究数据源于广东省某地市2018年的中考成绩和2021年的高考成绩。广东省是全国第三批高考综合改革试点的8个省市之一,新高考从2021年起采用“3+1+2”方案,其中“3”为全国统考科目语文、数学和外语,“1”为物理、历史科目中选择1科,“2”为化学、生物、思想政治和地理4个科目中选择2科17。本研究包含两组数据,其中第一组数据涉及普通类物理考生的中考和高考成绩,第二组数据涉及普通类历史考生的中考和高考成绩。在剔除异常数据(中考总分为0、高考总分为0、高考应届标为往届)、非本市学校毕业考生、兼报艺体类科目考生,以及考生少于10人的学校后,第一组数据包括来自57所高
21、中学校的普通类物理考生19 229人,第二组数据包括来自59所高中学校的普通类历史考生10 860人。(二)统计分析本研究使用4种增值评价方法计算学校水平上的增值分数,并在此基础上比较4种增值评价方法的天花板和地板效应。在使用标准分变化法的增值评价中,首先将中考和高考原始分数转换为T分数(平均数为50,标准差为10),并计算每所学校T分数的平均分,然后计算每所学校高考与中考T分数的平均分之差来表示学校增值分数。在使用位次变化法的增值评价中,首先按照中考和高考T分数的平均分对学校进行排序,然后计算每所学校中考和高考位次之差来表示学校增值分数。在使用残差增分模型的增值评价中,将中考分数作为预测变量
22、,高考分数作为结果变量,在学生水平上进行线性回归(最小二乘法),并获得高考实测分数和预测分数之间的残差值,每所学校学生残差值的平均数即学校增值分数。在使用简易成长百分等级模型的增值评价中,首先按照中考分数将学生分成101个等级(0100),同处一个百分等级的学生构成一个学术伙伴子群体,然后基于高考成绩来计算每个子群体内各学生的百分等级,即学生成长百分等级,每所学校学生成长百分等级的中位数为学校增值分数。研究使用普通类物理和历史考生的中、高考数据分别对这4种增值评价方法的天花板和地板效应进行分析比较。(三)分析结果1.基于普通类物理考生数据的分析结果图 2图 5给出基于普通类物理考生的中、高考成
23、绩所计算的各所学校的增值分数。其中,对学校按照中考平均分进行了排序,1 为中考平均分最高的学校,57 为中考平均分最低的学校。研究分别选取中考最高分的6所学校和中考最低分的6所学校(各约占10%)作为高分学校和低分学校,比较4种增值评价方法的天花板和地板效应。骆文淑 等:增值评价中的天花板和地板效应分析912024年第3期标准分变化值学校图2 基于标准分变化法的学校增值分数(物理)位次变化值图3 基于位次变化法的学校增值分数(物理)学校线性回归残差平均数学校图4 基于残差增分模型的学校增值分数(物理)学校图5 基于简易成长百分等级模型的学校增值分数(物理)成长百分等级中位数92从图2可以看出,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 增值 评价 中的 天花板 地板 效应 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。